(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023070748
(43)【公開日】2023-05-22
(54)【発明の名称】音声対話装置、音声対話方法、プログラム
(51)【国際特許分類】
G10L 13/08 20130101AFI20230515BHJP
G10L 13/00 20060101ALI20230515BHJP
G10L 13/047 20130101ALI20230515BHJP
G10L 13/10 20130101ALI20230515BHJP
G10L 15/22 20060101ALI20230515BHJP
G10L 25/90 20130101ALI20230515BHJP
【FI】
G10L13/08 124
G10L13/00 100M
G10L13/047 Z
G10L13/10 114
G10L15/22 300Z
G10L25/90
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2021183018
(22)【出願日】2021-11-10
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (1)発行日 2020年11月24日 刊行物 人工知能学会 言語・音声理解と対話処理研究会(第90回)予稿集 http://blog.media.teu.ac.jp/2020/11/post-9b3d7d.html (2)発行日 2021年2月24日(開催日:2021年3月10日~2021年3月12日) 刊行物、集会名、開催場所 日本音響学会 2021年春季研究発表会 講演論文集 日本音響学会 2021年春季研究発表会(オンライン開催) https://acoustics.jp/annualmeeting/past-meetings/ (3)開催日 2021年8月30日~2021年9月3日(公開日:2021年8月30日) 集会名、開催場所 国際会議 Interspeech2021 (オンライン開催) https://www.interspeech2021.org/
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】504157024
【氏名又は名称】国立大学法人東北大学
(74)【代理人】
【識別番号】100121706
【弁理士】
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【弁理士】
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【弁理士】
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】千葉 祐弥
(72)【発明者】
【氏名】伊藤 彰則
(72)【発明者】
【氏名】能勢 隆
(72)【発明者】
【氏名】山崎 善啓
(57)【要約】
【課題】システム発話において細かなピッチ変化を実現する音声合成技術を提供する。
【解決手段】ユーザ発話の音声から当該ユーザ発話の単語系列を生成する単語系列生成部と、前記ユーザ発話の音声と単語系列とから当該ユーザ発話の単語ごとの韻律情報の系列(以下、韻律情報系列という)を生成する韻律情報系列生成部と、ユーザ発話の単語系列と韻律情報系列とを入力とし、システム発話の単語系列と単語ごとの韻律制御信号の系列(以下、韻律制御信号系列という)を出力するニューラルネットワークとして構成されるシステム発話生成モデルを用いて、前記ユーザ発話の単語系列と韻律情報系列とからシステム発話の単語系列と韻律制御信号系列を生成するシステム発話生成部と、前記システム発話の単語系列と韻律制御信号系列とから前記システム発話の音声を合成する音声合成部とを含む。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ユーザ発話の音声から当該ユーザ発話の単語系列を生成する単語系列生成部と、
前記ユーザ発話の音声と単語系列とから当該ユーザ発話の単語ごとの韻律情報の系列(以下、韻律情報系列という)を生成する韻律情報系列生成部と、
ユーザ発話の単語系列と韻律情報系列とを入力とし、システム発話の単語系列と単語ごとの韻律制御信号の系列(以下、韻律制御信号系列という)を出力するニューラルネットワークとして構成されるシステム発話生成モデルを用いて、前記ユーザ発話の単語系列と韻律情報系列とからシステム発話の単語系列と韻律制御信号系列を生成するシステム発話生成部と、
前記システム発話の単語系列と韻律制御信号系列とから前記システム発話の音声を合成する音声合成部と
を含む音声対話装置。
【請求項2】
請求項1に記載の音声対話装置であって、
前記韻律情報は平均対数F0であり、
前記韻律制御信号は差分F0コンテキストである
ことを特徴とする音声対話装置。
【請求項3】
請求項2に記載の音声対話装置であって、
前記ニューラルネットワークは、1組のエンコーダとデコーダを含むものであり、
前記エンコーダは、ユーザ発話の単語系列と平均対数F0系列とを入力とし、潜在変数を出力するものであり、
前記デコーダは、前記潜在変数を入力とし、システム発話の単語系列と差分F0コンテキスト系列を出力するものである
ことを特徴とする音声対話装置。
【請求項4】
請求項2に記載の音声対話装置であって、
前記ニューラルネットワークは、2組のエンコーダとデコーダ(以下、それぞれ第1エンコーダと第1デコーダ、第2エンコーダと第2デコーダという)を含むものであり、
前記第1エンコーダは、ユーザ発話の単語系列を入力とし、第1潜在変数を出力するものであり、
前記第1デコーダは、前記第1潜在変数を入力とし、システム発話の単語系列を出力するものであり、
前記第2エンコーダは、前記ユーザ発話の単語系列と平均対数F0系列とを入力とし、第2潜在変数を出力するものであり、
前記第2デコーダは、前記第2潜在変数と前記システム発話の単語系列とを入力とし、前記システム発話の差分F0コンテキスト系列を出力するものである
ことを特徴とする音声対話装置。
【請求項5】
請求項2に記載の音声対話装置であって、
前記ニューラルネットワークは、人同士の対話における音声に基づいて生成される学習データを用いて学習される
ことを特徴とする音声対話装置。
【請求項6】
音声対話装置が、ユーザ発話の音声から当該ユーザ発話の単語系列を生成する単語系列生成ステップと、
前記音声対話装置が、前記ユーザ発話の音声と単語系列とから当該ユーザ発話の単語ごとの韻律情報の系列(以下、韻律情報系列という)を生成する韻律情報系列生成ステップと、
前記音声対話装置が、ユーザ発話の単語系列と韻律情報系列とを入力とし、システム発話の単語系列と単語ごとの韻律制御信号の系列(以下、韻律制御信号系列という)を出力するニューラルネットワークとして構成されるシステム発話生成モデルを用いて、前記ユーザ発話の単語系列と韻律情報系列とからシステム発話の単語系列と韻律制御信号系列を生成するシステム発話生成ステップと、
前記音声対話装置が、前記システム発話の単語系列と韻律制御信号系列とから前記システム発話の音声を合成する音声合成ステップと
を含む音声対話方法。
【請求項7】
請求項1ないし5のいずれか1項に記載の音声対話装置としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声対話技術に関する。
【背景技術】
【0002】
音声対話技術とは、例えばロボットのようなシステムに人との音声対話をさせる際の、発話音声を生成するための技術である。対話として自然な発話音声を生成するために、過去の対話履歴に基づいて、発話音声の平均パワーや韻律の幅、発話速度などの特徴量を制御する方法がある。例えば、非特許文献1に記載の技術では、韻律に関する特徴量を文レベルで制御する。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】S. Fuscone et al., “Neural representations of dialogical history for improving upcoming turn acoustic parameters prediction,” in Proc. INTERSPEECH, 2020
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、非特許文献1の技術は、文レベルの特徴量といった発話単位の大まかな特徴量を制御するのみに留まるため、実際の人同士の対話において聞かれるような細かなピッチ変化を再現することができないという問題がある。
【0005】
そこで本発明では、システム発話において細かなピッチ変化を実現する音声合成技術を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の一態様は、ユーザ発話の音声から当該ユーザ発話の単語系列を生成する単語系列生成部と、前記ユーザ発話の音声と単語系列とから当該ユーザ発話の単語ごとの韻律情報の系列(以下、韻律情報系列という)を生成する韻律情報系列生成部と、ユーザ発話の単語系列と韻律情報系列とを入力とし、システム発話の単語系列と単語ごとの韻律制御信号の系列(以下、韻律制御信号系列という)を出力するニューラルネットワークとして構成されるシステム発話生成モデルを用いて、前記ユーザ発話の単語系列と韻律情報系列とからシステム発話の単語系列と韻律制御信号系列を生成するシステム発話生成部と、前記システム発話の単語系列と韻律制御信号系列とから前記システム発話の音声を合成する音声合成部とを含む。
【発明の効果】
【0007】
本発明によれば、システム発話において細かなピッチ変化を実現することが可能となる。
【図面の簡単な説明】
【0008】
【
図1】音声対話装置100の構成を示すブロック図である。
【
図2】音声対話装置100の動作を示すフローチャートである。
【
図3】システム発話生成モデルの構成を示す図である。
【
図4】システム発話生成モデルの一例を示す図である。
【
図5】システム発話生成モデルの構成を示す図である。
【
図6】システム発話生成モデルの一例を示す図である。
【
図7】本発明の実施形態における各装置を実現するコンピュータの機能構成の一例を示す図である。
【発明を実施するための形態】
【0009】
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【0010】
各実施形態の説明に先立って、この明細書における表記方法について説明する。
【0011】
^(キャレット)は上付き添字を表す。例えば、xy^zはyzがxに対する上付き添字であり、xy^zはyzがxに対する下付き添字であることを表す。また、_(アンダースコア)は下付き添字を表す。例えば、xy_zはyzがxに対する上付き添字であり、xy_zはyzがxに対する下付き添字であることを表す。
【0012】
ある文字xに対する^xや~xのような上付き添え字の”^”や”~”は、本来”x”の真上に記載されるべきであるが、明細書の記載表記の制約上、^xや~xと記載しているものである。
【0013】
<第1実施形態>
音声対話装置100は、ユーザ発話の音声を入力とし、システム発話生成モデルを用いてシステム発話の音声を合成する。ここで、システム発話生成モデルとは、ユーザ発話の単語系列と単語ごとの韻律情報の系列(以下、韻律情報系列という)とを入力とし、システム発話の単語系列と単語ごとの韻律制御信号の系列(以下、韻律制御信号系列という)を出力する関数であり、例えば、ニューラルネットワークとして構成することができる。
【0014】
以下、
図1~
図2を参照して音声対話装置100を説明する。
図1は、音声対話装置100の構成を示すブロック図である。
図2は、音声対話装置100の動作を示すフローチャートである。
図1に示すように音声対話装置100は、単語系列生成部110と、韻律情報系列生成部120と、システム発話生成部130と、音声合成部140と、記録部190を含む。記録部190は、音声対話装置100の処理に必要な情報を適宜記録する構成部である。記録部190は、例えば、システム発話生成モデルのパラメタを予め記録しておく。
【0015】
図2に従い音声対話装置100の動作について説明する。
【0016】
S110において、単語系列生成部110は、ユーザ発話の音声を入力とし、当該ユーザ発話の音声から当該ユーザ発話の単語系列を生成、出力する。単語系列生成部110は、例えば、従来の音声認識技術を用いて、ユーザ発話に含まれる単語の系列である単語系列を生成する。なお、ユーザ発話の音声を認識した結果が単語に分割されていない場合には、例えば形態素解析を用いて単語に分割するようにすればよい。
【0017】
S120において、韻律情報系列生成部120は、ユーザ発話の音声とS110で生成したユーザ発話の単語系列とを入力とし、当該ユーザ発話の音声と単語系列とから当該ユーザ発話の韻律情報系列を生成、出力する。韻律情報として、例えば、単語ごとの対数F0の平均(以下、平均対数F0という)を用いることができる。韻律情報系列生成部120は、例えば、従来の音響特徴量抽出技術を用いて、ユーザ発話の平均対数F0系列を生成する。具体的には、韻律情報系列生成部120は、S110で生成したユーザ発話の単語系列に基づいてユーザ発話の音声に対して単語アライメント、つまり、音声と単語の時間的な対応付けを行い、ユーザ発話の音声から抽出した基本周波数F0の系列から対数変換により対数F0の系列を生成し、単語アライメントによって得られた時間情報に基づいて単語ごとの対数F0の平均を計算することにより、ユーザ発話の平均対数F0系列を生成する。
【0018】
S130において、システム発話生成部130は、S110で生成したユーザ発話の単語系列とS120で生成したユーザ発話の韻律情報系列とを入力とし、システム発話生成モデルを用いて、当該ユーザ発話の単語系列と韻律情報系列とからシステム発話の単語系列と韻律制御信号系列を生成、出力する。韻律情報が平均対数F0である場合、韻律制御信号として、例えば平均対数F0の差分(以下、差分F0コンテキストという)を用いることができる。
【0019】
システム発話生成モデルをニューラルネットワークとして構成する場合、
図3に示すような1組のエンコーダとデコーダを含むものとすることができる。エンコーダは、ユーザ発話の単語系列と平均対数F0系列とを入力とし、潜在変数を出力する。ここで潜在変数とは、所定の次元のベクトルとして表されるものである。一方、デコーダは、潜在変数を入力とし、システム発話の単語系列と差分F0コンテキスト系列を出力する。
図4は、1組のエンコーダとデコーダを含むニューラルネットワークとして構成されるシステム発話生成モデルの一例を示す図である。
図4は、ユーザ発話の単語系列である”I won the game”がシステム発話生成モデルに入力され、システム発話の単語系列である”you did it”が出力される例を示している。なお、LF0は単語ごとの韻律情報を、ΔLF0は単語ごとの韻律制御信号を表している。
図4に示すように、システム発話生成モデルは、注意層(attention layer)を備える1組のエンコーダとデコーダを含むものとすることができる。
【0020】
また、システム発話生成モデルをニューラルネットワークとして構成する場合、
図5に示すような2組のエンコーダとデコーダ(以下、それぞれ第1エンコーダと第1デコーダ、第2エンコーダと第2デコーダという)を含むものとすることもできる。第1エンコーダは、ユーザ発話の単語系列を入力とし、第1潜在変数を出力するものであり、第1デコーダは、第1潜在変数を入力とし、システム発話の単語系列を出力する。また、第2エンコーダは、第1エンコーダの入力であるユーザ発話の単語系列と平均対数F0系列とを入力とし、第2潜在変数を出力するものであり、第2デコーダは、第2潜在変数と第1デコーダが出力したシステム発話の単語系列とを入力とし、システム発話の差分F0コンテキスト系列を出力する。
図6は、2組のエンコーダとデコーダを含むニューラルネットワークとして構成されるシステム発話生成モデルの一例を示す図である。
図6は、
図4と同様、ユーザ発話の単語系列である”I won the game”がシステム発話生成モデルに入力され、システム発話の単語系列である”you did it”が出力される例を示している。
図6に示すように、システム発話生成モデルは、それぞれが注意層(attention layer)を備える2組のエンコーダとデコーダを含むものとすることができる。
【0021】
システム発話生成モデルをニューラルネットワークとして構成する場合、システム発話生成モデルは、人同士の対話における音声に基づいて生成される学習データを用いて予め学習しておく。人同士の対話が二者対話である場合、先行発話がユーザ発話、後続発話がシステム発話に相当し、学習データは、先行発話の単語系列と平均対数F0系列と、後続発話の単語系列と差分F0コンテキスト系列との組となる。ここで、差分F0コンテキストは、実発話から得られる平均対数F0と、従来技術により生成された、実発話と発話内容が同一の合成音声から得られる平均対数F0との差分である。なお、二者対話の代わりに多数の話者による対話を用いて学習することもできる。この場合、合成音声を生成する従来技術も話者として含めたうえで、それぞれの話者のF0を話者ごとの平均値で正規化するとよい。
【0022】
S140において、音声合成部140は、S130で生成したシステム発話の単語系列と韻律制御信号系列とを入力とし、当該システム発話の単語系列と韻律制御信号系列とからシステム発話の音声を合成、出力する。韻律制御信号が差分F0コンテキストである場合、音声合成部140は、例えば、参考非特許文献1に記載の差分音響モデルによる音声合成技術を用いることができる。
【0023】
(参考非特許文献1:S. Yamada et al., “A Study on Tailor-Made Speech Synthesis Based on Deep Neural Networks,” in Proc. IIH-MSP, pp.159-166, 2016.)
本発明の実施形態によれば、システム発話において細かなピッチ変化を実現することが可能となる。特に、人同士の対話を用いて単語レベルのピッチ変化を学習することで、人同士の対話でみられる現象(例えば特定の語句の強調や同調)を考慮した対話として自然な音声を合成することが可能となる。
【0024】
<補記>
図7は、上述の各装置を実現するコンピュータ2000の機能構成の一例を示す図である。上述の各装置における処理は、記録部2020に、コンピュータ2000を上述の各装置として機能させるためのプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
【0025】
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
【0026】
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
【0027】
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成部)を実現する。
【0028】
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0029】
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
【0030】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0031】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0032】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記憶装置に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0033】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【0034】
上述の本発明の実施形態の記載は、例証と記載の目的で提示されたものである。網羅的であるという意思はなく、開示された厳密な形式に発明を限定する意思もない。変形やバリエーションは上述の教示から可能である。実施形態は、本発明の原理の最も良い例証を提供するために、そして、この分野の当業者が、熟考された実際の使用に適するように本発明を色々な実施形態で、また、色々な変形を付加して利用できるようにするために、選ばれて表現されたものである。すべてのそのような変形やバリエーションは、公正に合法的に公平に与えられる幅にしたがって解釈された添付の請求項によって定められた本発明のスコープ内である。