2025-25310 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

2025-25310応答生成学習装置、応答生成装置、応答生成学習方法、応答生成方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2025025310

(43)【公開日】2025-02-21

(54)【発明の名称】応答生成学習装置、応答生成装置、応答生成学習方法、応答生成方法及びプログラム

(51)【国際特許分類】

G10L 15/07 20130101AFI20250214BHJP

G06F 40/56 20200101ALI20250214BHJP

G10L 17/18 20130101ALI20250214BHJP

G10L 15/22 20060101ALI20250214BHJP

【ＦＩ】

G10L15/07

G06F40/56

G10L17/18

G10L15/22 300U

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2023129966

(22)【出願日】2023-08-09

【新規性喪失の例外の表示】特許法第３０条第２項適用申請有り２０２３年２月２７日に人工知能学会言語・音声理解と対話処理研究会（ＳＬＵＤ）第９７回研究会予稿集にて公開２０２２年９月１５日に２０２２年度国立大学法人奈良先端科学技術大学院大学におけるコロキアムにて公開

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(71)【出願人】

【識別番号】504143441

【氏名又は名称】国立大学法人奈良先端科学技術大学院大学

(74)【代理人】

【識別番号】110004381

【氏名又は名称】弁理士法人ＩＴＯＨ

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100124844

【弁理士】

【氏名又は名称】石原隆治

(72)【発明者】

【氏名】水上雅博

(72)【発明者】

【氏名】杉山弘晃

(72)【発明者】

【氏名】安川浩貴

(72)【発明者】

【氏名】品川政太朗

(72)【発明者】

【氏名】須藤克仁

(72)【発明者】

【氏名】中村哲

(57)【要約】

【課題】特定の話者の特徴の発話の生成に関する制御性及び内挿性を向上させること。
【解決手段】応答生成学習装置は、話者を識別するトークン及び前記話者の特徴を示すテキストを含む話者情報を入力した話者埋め込みモデルが前記話者情報を再現するように話者埋め込みモデルを学習し、前記話者埋め込みモデルが前記話者情報に基づいて生成する潜在表現と、対話における発話の履歴とを入力した応答生成モデルが前記話者情報及び前記履歴に対する正解の応答を再現するように応答生成モデルを学習するように構成されている学習部を有する。
【選択図】図２

【特許請求の範囲】

【請求項1】

話者を識別するトークン及び前記話者の特徴を示すテキストを含む話者情報を入力した話者埋め込みモデルが前記話者情報を再現するように話者埋め込みモデルを学習し、前記話者埋め込みモデルが前記話者情報に基づいて生成する潜在表現と、対話における発話の履歴とを入力した応答生成モデルが前記話者情報及び前記履歴に対する正解の応答を再現するように応答生成モデルを学習するように構成されている学習部、
を有することを特徴とする応答生成学習装置。

【請求項2】

前記話者埋め込みモデルは、ＶＡＥ（Variational Auto-Encoder）である、
ことを特徴とする請求項１記載の応答生成学習装置。

【請求項3】

前記学習部は、前記潜在表現が所定の確率分布に従うような制約を与えるように構成されている、
ことを特徴とする請求項２記載の応答生成学習装置。

【請求項4】

話者を識別するトークン及び前記話者の特徴を示すテキストを含む話者情報を入力した話者埋め込みモデルが前記話者情報を再現するように学習された話者埋め込みモデルと、前記話者埋め込みモデルが前記話者情報に基づいて生成する潜在表現と、対話における発話の履歴とを入力した応答生成モデルが前記話者情報及び前記履歴に対する正解の応答を再現するように学習された応答生成モデルとを用いて、
前記話者埋め込みモデルに話者情報を入力し、前記応答生成モデルに対話における発話の履歴を入力した場合に前記話者埋め込みモデルの潜在表現を用いて前記応答生成モデルが出力する情報に基づいて当該発話の履歴に対する応答を生成するように構成されている応答生成部、
を有することを特徴とする応答生成装置。

【請求項5】

話者を識別するトークン及び前記話者の特徴を示すテキストを含む話者情報を入力した話者埋め込みモデルが前記話者情報を再現するように話者埋め込みモデルを学習し、前記話者埋め込みモデルが前記話者情報に基づいて生成する潜在表現と、対話における発話の履歴とを入力した応答生成モデルが前記話者情報及び前記履歴に対する正解の応答を再現するように応答生成モデルを学習する学習手順、
をコンピュータが実行することを特徴とする応答生成学習方法。

【請求項6】

話者を識別するトークン及び前記話者の特徴を示すテキストを含む話者情報を入力した話者埋め込みモデルが前記話者情報を再現するように学習された話者埋め込みモデルと、前記話者埋め込みモデルが前記話者情報に基づいて生成する潜在表現と、対話における発話の履歴とを入力した応答生成モデルが前記話者情報及び前記履歴に対する正解の応答を再現するように学習された応答生成モデルとを用いて、
前記話者埋め込みモデルに話者情報を入力し、前記応答生成モデルに対話における発話の履歴を入力した場合に前記話者埋め込みモデルの潜在表現を用いて前記応答生成モデルが出力する情報に基づいて当該発話の履歴に対する応答を生成する応答生成手順、
をコンピュータが実行することを特徴とする応答生成方法。

【請求項7】

請求項１乃至３いずれか一項記載の応答生成学習装置としてコンピュータを機能させることを特徴とするプログラム。

【請求項8】

請求項４記載の応答生成装置としてコンピュータを機能させることを特徴とするプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、応答生成学習装置、応答生成装置、応答生成学習方法、応答生成方法及びプログラムに関する。

【背景技術】

【0002】

従来、応答生成（ユーザの発話を入力として、システム応答を生成する対話システム）において、特定の話者の特徴を学習、再現、反映するための研究が行われている（非特許文献１、非特許文献２）。

【0003】

非特許文献１の手法（以下、「手法１」という。）では、話者の特徴を反映した応答を生成するために、対話データと話者ＩＤを対応付けて学習が行われる。具体的には、話者ＩＤを話者埋め込みと呼ばれるベクトルに変換し、そのベクトルを応答生成モデルの任意の部分で読み込むことで応答に対して特徴が反映される。話者ＩＤがついた対話データはインターネット上から大量に手に入り、学習が容易である。

【0004】

非特許文献２の手法（以下、「手法２」という。）では、話者の特徴を反映した応答を生成するために、対話データと話者の特徴を記したテキスト（ペルソナ文）とを対応付けて学習が行われる。手法２では、ペルソナ文が発話と同様に入力される。

【先行技術文献】

【非特許文献】

【0005】

【非特許文献1】Jiwei Li et al.、"A Persona-Based Neural Conversation Model"、arXiv:1603.06155v2 [cs.CL] 8 Jun 2016

【非特許文献2】Saizheng Zhang et al.、"Personalizing Dialogue Agents: I have a dog, do you have pets too?"、Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Long Papers), pages 2204-2213 Melbourne, Australia, July 15 - 20, 2018

【発明の概要】

【発明が解決しようとする課題】

【0006】

手法１では、話者ごとの特徴を応答文と話者ＩＤとで対応付けて学習するため、制御性（ユーザ・人間が、システムの反映する話者の特徴に対して、自然言語を用いて指示できるという特性）が低いという問題が有る。換言すれば、手法１では、話者ＩＤの特徴空間について、話者同士の特徴が離れるように学習が行われるため話者性を微妙に調整するようなことが難しいという問題が有る。例えば、手法１は、任意の話者に対して「丁寧な口調にする」といった自然言語による指示又は操作などは受け付けない。

【0007】

手法２は、話者ごとの特徴を、それを表現する自然言語（ペルソナ文）と応答文を対応付けて学習するため、制御性は高いが、ペルソナ文を与えたデータを集めることのコストが高いため、当該データを大量に集めることはできない。これらの理由から、手法２では、話者埋め込みベクトルがなく、学習データも少ないため、話者の情報について内挿性（話者の特徴を加減算可能にすることで、２人の話者を足した特徴を持つ話者や、中間的な話者の特徴を生成・指示できる特性）の有る表現を持つ応答文を生成するのは困難である。つまり、手法２は、制御性は高いが、内挿性に課題がある。

【0008】

本発明は、上記の点に鑑みてなされたものであって、特定の話者の特徴の発話の生成に関する制御性及び内挿性を向上させることを目的とする。

【課題を解決するための手段】

【0009】

そこで上記課題を解決するため、応答生成学習装置は、話者を識別するトークン及び前記話者の特徴を示すテキストを含む話者情報を入力した話者埋め込みモデルが前記話者情報を再現するように話者埋め込みモデルを学習し、前記話者埋め込みモデルが前記話者情報に基づいて生成する潜在表現と、対話における発話の履歴とを入力した応答生成モデルが前記話者情報及び前記履歴に対する正解の応答を再現するように応答生成モデルを学習するように構成されている学習部を有する。

【発明の効果】

【0010】

特定の話者の特徴の発話の生成に関する制御性及び内挿性を向上させることができる。

【図面の簡単な説明】

【0011】

【図1】本発明の実施の形態における応答生成装置１０のハードウェア構成例を示す図である。

【図2】本発明の実施の形態における応答生成装置１０の機能構成例を示す図である。

【図3】本発明の実施の形態における機械学習モデルｍ１の構成例を示す図である。

【図4】話者埋め込みモデルｍ１２の構成例を示す図である。

【図5】話者埋め込みモデルｍ１２に関する第１の具体例を説明するための図である。

【図6】話者埋め込みモデルｍ１２に関する第２の具体例を説明するための図である。

【図7】応答生成モデルｍ１１の構成例を示す図である。

【発明を実施するための形態】

【0012】

以下、図面に基づいて本発明の実施の形態を説明する。図１は、本発明の実施の形態における応答生成装置１０のハードウェア構成例を示す図である。図１の応答生成装置１０は、それぞれバスＢで相互に接続されているドライブ装置１００、補助記憶装置１０２、メモリ装置１０３、プロセッサ１０４、及びインタフェース装置１０５等を有する。

【0013】

応答生成装置１０での処理を実現するプログラムは、ＣＤ－ＲＯＭ等の記録媒体１０１によって提供される。プログラムを記憶した記録媒体１０１がドライブ装置１００にセットされると、プログラムが記録媒体１０１からドライブ装置１００を介して補助記憶装置１０２にインストールされる。但し、プログラムのインストールは必ずしも記録媒体１０１より行う必要はなく、ネットワークを介して他のコンピュータよりダウンロードするようにしてもよい。補助記憶装置１０２は、インストールされたプログラムを格納すると共に、必要なファイルやデータ等を格納する。

【0014】

メモリ装置１０３は、プログラムの起動指示があった場合に、補助記憶装置１０２からプログラムを読み出して格納する。プロセッサ１０４は、ＣＰＵ若しくはＧＰＵ（Graphics Processing Unit）、又はＣＰＵ及びＧＰＵであり、メモリ装置１０３に格納されたプログラムに従って応答生成装置１０に係る機能を実行する。インタフェース装置１０５は、ネットワークに接続するためのインタフェースとして用いられる。

【0015】

図２は、本発明の実施の形態における応答生成装置１０の機能構成例を示す図である。図２において、応答生成装置１０は、学習部１１及び応答生成部１２を有する。これら各部は、応答生成装置１０にインストールされた１以上のプログラムが、プロセッサ１０４に実行させる処理により実現される。

【0016】

学習部１１は、機械学習モデルｍ１の学習処理を実行する。機械学習モデルｍ１は、対話における発話の履歴、発話の履歴に対して応答を行う話者（以下、「応答者」という。）の特徴を示す情報（以下、「話者情報」という。）を入力とし、当該応答の生成するニューラルネットワーク等のモデルである。なお、本実施の形態において、「発話」及び「応答」はテキストデータである。発話の履歴とは、対話において行われた全て又は一定の長さの発話のテキストデータが時系列に配列されたものである。「一定の長さ」とは、過去の発話の一定数（より厳密には一定の単語数）をいう。この長さは、機械学習モデルｍ１（厳密には後述される応答生成モデルｍ１１）が受け取ることができる長さに依存する。例えば、２人による対話であれば、発話の履歴は、２人の話者による交互の発話が時系列に配列されたものである。対話は３人以上で行われるものであってもよい。応答者は、発話の履歴におけるいずれかの発話を行った者でもよいし、発話の履歴におけるいずれの発話も行っていない者でもよい。

【0017】

応答生成部１２は、発話の履歴及び応答者の話者情報を入力とし、機械学習モデルｍ１を用いて、当該発話の履歴に対して当該話者情報に係る話者の特徴に応じた応答を生成する。発話の履歴に対する応答とは、発話の履歴における文脈に応じた新たな発話をいい、必ずしも最後の発話のみに対する応答に限定されない。

【0018】

な本実施の形態において、発話及び応答はテキストデータであるため、話者の特徴は、音声的な特徴は含まず、言語的な話し方の特徴や発話の内容の特徴等を含む。例えば、言語的な話し方の特徴としては、フィラー（「あー」、「えー」、「えーっと」等の言いよどみ）の種類やフィラーの箇所等が挙げられる。また、口調（丁寧語、敬語、砕けたしゃべり方、方言）、一人称や三人称の表現の仕方の特徴、単語の選び方（同じ意味でも、「難しい」、「困難」、「簡単ではない」など様々な表現がある中でどの表現を選ぶ傾向にあるのか）なども言語的な話し方の特徴に含まれる。発話の内容の特徴としては、「あなたはどんな人ですか？」などのように聞かれた際に、「おもろいこと好き！コテコテの大阪人やねん！」と答えるか、「浅草生まれ浅草育ち、生粋の江戸っ子でい」と答えるかなど、応答文全体の特徴をいう。

【0019】

なお、学習部１１及び応答生成部１２は、それぞれ異なるコンピュータを用いて実現されてもよい。

【0020】

図３は、本発明の実施の形態における機械学習モデルｍ１の構成例を示す図である。図３において、機械学習モデルｍ１は、話者埋め込みモデルｍ１２及び応答生成モデルｍ１１を含む。

【0021】

話者埋め込みモデルｍ１２は、話者情報である入力２を入力として、潜在表現において話者埋め込みベクトルｖ１を生成し、話者埋め込みベクトルｖ１から話者情報を復元するモデルである。したがって、話者埋め込みモデルｍ１２からの出力２は、復元された話者情報である。なお、生成された話者埋め込みベクトルｖ１は、応答生成モデルｍ１１に入力される。話者情報とは、話者ＩＤ（［ＩＤ－１２３］のような話者を識別するためのトークン、）、及びペルソナ文（私は大阪出身です、面白い人が好きです、たこ焼きが好きです、のような文集合）のいずれか、又は双方である。トークンとは、日本語を単語のような区切りに文を分割した際の最小単位をいう。ペルソナ文とは、話者の特徴を記したテキストをいう。本実施の形態において、［］で括ったトークンは、話者ＩＤや文末、余白埋め等の特殊な役割を持つトークンを意味する。

【0022】

応答生成モデルｍ１１は、発話の履歴を入力１として入力して、話者埋め込みモデルｍ１２が生成した話者埋め込みベクトルｖ１を隠れ層において受け取り、出力１としての応答を生成するモデルである。当該応答は、入力１に対する応答であって、かつ、当該話者埋め込みベクトルｖ１に係る話者の特徴を含む応答である。

【0023】

図４は、話者埋め込みモデルｍ１２の構成例を示す図である。話者埋め込みモデルｍ１２は、ＶＡＥ（Variational Auto-Encoder）、又はそれに準ずる構造のモデル（例えば、単なるオートエンコーダ）が性能面に鑑みて好適である。但し、他のモデルが話者埋め込みモデルｍ１２として用いられてもよい。ＶＡＥは入力と出力が同様の内容になるよう復元を行うことで、モデルのエンコーダが生成する潜在表現（埋め込みベクトルｖ１）の情報量を向上させる（入力の情報が失われないようにする）機能があり、話者埋め込みベクトルｖ１の表現能力の向上や、内挿性の向上に役立つ。

【0024】

図４では、ＶＡＥを構成するエンコーダが入力２としての話者情報から話者埋め込みベクトルｖ１を生成し、デコーダが話者埋め込みベクトルｖ１から話者情報を復元して当該話者情報を出力２として出力する例が示されている。

【0025】

図５は、話者埋め込みモデルｍ１２に関する第１の具体例を説明するための図である。図５には学習済みBERTをエンコーダとして用い、Transformer Decoderをデコーダとして用いた話者埋め込みモデルｍ１２が示されている。

【0026】

BERTは自然言語処理で一般的に用いられる事前学習済みモデルの一つである。BERTが出力する［ＣＬＳ］トークンに対応するベクトルが、BERTが入力した文章の特徴を強く反映することが知られている。

【0027】

Transformerは、BERTでも用いられるニューラルネットワークモデルの一つである。学習済みのTransformer Decoderも公開されており、言語生成の研究でよく用いられる。

【0028】

図５において、エンコーダであるBERTは、入力２（話者情報）として、話者ＩＤ若しくはペルソナ文、又はその両方を入力可能である。話者情報の具体的な形式は、例えば、以下の通りである。

【0029】

話者情報が話者ＩＤのみを含む場合、話者情報は、例えば、［ＣＬＳ］［ＩＤ－１２３］［／Ｓ］［ＰＡＤ］［ＰＡＤ］［ＰＡＤ］のような形式になる。

【0030】

話者情報がペルソナ文のみを含む場合、話者情報は、例えば、［ＣＬＳ］わたしは大阪出身です［／Ｓ］［ＰＡＤ］［ＰＡＤ］［ＰＡＤ］のような形式になる。

【0031】

話者情報が話者ＩＤ及びペルソナ文の両方を含む場合、話者情報は、［ＣＬＳ］［ＩＤ－１２３］私は大阪出身です［／Ｓ］［ＰＡＤ］［ＰＡＤ］［ＰＡＤ］のような形式になる。つまり、話者ＩＤとペルソナ文とを単純に接続すればよい。

【0032】

なお、話者情報が話者ＩＤ及びペルソナ文の両方を含む形式の場合であっても、話者ＩＤのみを含む話者情報及びペルソナ文のみを含む話者情報を表現可能である。この場合、含まない方（ペルソナ文又は話者ＩＤ）が欠損していると考え、欠損している部分が［ＵＮＫ］という未知の語彙（未知語）を示すトークンによって埋められてもよい。

【0033】

例えば、話者ＩＤのみを含む話者情報は、ペルソナ文が欠損部分であるため、［ＣＬＳ］［ＩＤ－１２３］［ＵＮＫ］［／Ｓ］［ＰＡＤ］［ＰＡＤ］［ＰＡＤ］のようになる。ペルソナ文のみを含む話者情報は、話者ＩＤが欠損部分であるため、［ＣＬＳ］［ＵＮＫ］私は大阪出身です［／Ｓ］［ＰＡＤ］［ＰＡＤ］［ＰＡＤ］のようになる。

【0034】

なお、［ＣＬＳ］トークンは、BERTを用いる場合に必要になるトークンであり、［／Ｓ］は文末記号、［ＰＡＤ］は余白埋めを示す。余白とは、話者埋め込みモデルｍ１２（のエンコーダ）への入力可能な長さに対して、入力２の長さが足りない部分に相当する。

【0035】

エンコーダとしてのBERTは、上記のような入力に対する処理結果として、［ＣＬＳ］トークンに対応するベクトルを出力する。このベクトルが話者埋め込みベクトルｖ１となる。

【0036】

Transformer Decoderは、話者埋め込みベクトルｖ１から入力２に対応する話者情報を復元し、復元結果を出力２とする。したがって、Transformer Decoderは、入力２が話者ＩＤなら話者ＩＤを、ペルソナ文ならペルソナ文を、両方なら両方を復元する。但し、BERTの処理特有の［ＣＬＳ］トークンは復元されなくてよい。具体的には、入力２が［ＣＬＳ］［ＩＤ－１２３］［／Ｓ］［ＰＡＤ］［ＰＡＤ］［ＰＡＤ］であれば、出力２は［ＩＤ－１２３］［／Ｓ］［ＰＡＤ］［ＰＡＤ］［ＰＡＤ］でもよい。

【0037】

図６は、話者埋め込みモデルｍ１２に関する第２の具体例を説明するための図である。図６には、話者ＩＤとペルソナ文の入力が明確に区別される場合の話者埋め込みモデルｍ１２の構成例が示されている。入力２－１は話者ＩＤのみの入力であり、入力２－２はペルソナ文のみの入力である。

【0038】

話者埋め込みモデルｍ１２は、入力２－１及び入力２－２のいずれか一つを入力し、対応する話者埋め込みベクトルｖ１を計算してもよいし、両方を入力し、入力２－１及び入力２－２ごとに対応する話者埋め込みを計算した後、加算、平均、max pooling等の手法で一つの話者埋め込みベクトルｖ１にまとめてもよい。

【0039】

入力２－１では、話者ＩＤを話者埋め込みに変換する方法として、Ｅｍｂｅｄｄｉｎｇ（埋め込み層）を用いてもよい。入力２－１に対応する出力２－１では、話者埋め込みベクトルｖ１から復元された話者ＩＤである。話者ＩＤの復元には、線形結合（Ｌｉｎｅａｒ）やクラス分類が用いられてもよい。

【0040】

入力２－２からの話者埋め込みベクトルｖ１の計算、及び話者埋め込みベクトルｖ１からのペルソナ文（出力２－２）の復元については、図４において説明した通りである。

【0041】

図７は、応答生成モデルｍ１１の構成例を示す図である。応答生成モデルｍ１１には、Encoder-Decoder又はDecoderモデルに準ずるモデルが好適である。図７には、Encoder-Decoderモデルとしての応答生成モデルｍ１１が示されている。例えば、Transformer Encoder-Decoderが用いられて応答生成モデルｍ１１が構成されてもよい。

【0042】

応答生成モデルｍ１１は、図７では、入力１としてこれまでの発話を入力し、話者埋め込みモデルｍ１２から出力１に対応する話者の話者埋め込みベクトルｖ１を受け取り、出力１として応答を生成する。

【0043】

話者埋め込みモデルｍ１２から受け取った話者埋め込みベクトルｖ１は、入力１としてのこれまでの発話を入力したエンコーダ（例えば、Transformer Encoder）が出力するベクトル列に結合されてもよいし、足し合わせされてもよい。この場合、結合又は足し合わせの結果がデコーダ（例えば、Transformer Decoder）に入力される。デコーダは、入力されたベクトルに基づいて応答（出力１）を生成する。又は話者埋め込みベクトルｖ１は、エンコーダが出力するベクトル列を入力したデコーダの任意の隠れ層におけるベクトル結合されてもよいし、足し合わされてもよい。

【0044】

［学習時］
学習部１１は、機械学習モデルｍ１の学習を制御する。学習部１１は、１つの対話における発話の履歴、話者情報、及び正解としての応答（以下、「正解応答」という。）とを１組とする複数の学習データを用いて学習処理を実行する。或る学習データの正解応答は、当該学習データの発話履歴に対する応答であって、当該学習データの話者情報に応じた特徴を含む応答である。少なくとも一部の学習データの話者情報は、話者ＩＤ及びペルソナ文の双方を含む。換言すれば、一部の学習データの話者情報は、話者ＩＤのみ又はペルソナ文のみであってもよい。

【0045】

学習部１１は、学習データにおける発話の履歴を入力１として機械学習モデルｍ１入力し、学習データにおける話者情報を入力２として機械学習モデルｍ１へ入力する。

【0046】

より詳しくは、学習部１１は、学習データごとに、当該学習データの話者情報を入力２として入力した場合の出力２が当該話者情報を再現するように（入力２と出力２との誤差が０になるように）話者埋め込みモデルｍ１２を学習（話者埋め込みモデルｍ１２のパラメータを更新）する。この際、学習部１１は、話者埋め込みベクトルｖ１の内挿性を高めるために、入力２として話者情報を入力した話者埋め込みモデルｍ１２における潜在表現としての話者埋め込みベクトルｖ１に対して、ＫＬダイバージェンス等の損失関数を与えることで、潜在表現としての話者埋め込みベクトルｖ１が正規分布などの所定の確率分布に従うような制約を与えてもよい。

【0047】

学習部１１は、また、学習データごとに、当該学習データの発話の履歴を入力１として入力し、当該学習データの話者情報を入力２として入力した場合の出力１が当該学習データの正解応答を再現するように（損失関数を用いて計算される出力１と正解応答との誤差が０になるように）応答生成モデルｍ１１及び話者埋め込みモデルｍ１２を教師あり学習（応答生成モデルｍ１１及び話者埋め込みモデルｍ１２のパラメータを更新）する。すなわち、出力１と正解応答との誤差は、応答生成モデルｍ１１及び話者埋め込みモデルｍ１２の双方のパラメータに影響する。

【0048】

なお、話者埋め込みモデルｍ１２及び応答生成モデルｍ１１の学習は同時に実行されてもよい（１回の処理で出力１の誤差と出力２の誤差を同時に０になるように、同時に両方のモデルを学習してもよい）し、事前に話者埋め込みモデルｍ１２のみを学習し、そのうえで応答生成モデルｍ１１のみを学習してもよいし、応答生成モデルｍ１１と話者埋め込みモデルｍ１２を交互に学習（１回の処理では出力１の誤差か出力２の誤差のどちらかを０にするように、話者埋め込みモデルｍ１２及び応答生成モデルｍ１１を学習する）してもよい。

【0049】

つまり、図４、図５、図６の話者埋め込みモデルｍ１２は、話者埋め込みモデルｍ１２のみで学習を行うことも可能である。その場合、学習部１１は、出力１の損失関数を考慮せず、入力２に対する出力２の損失関数のみを考慮して話者埋め込みモデルｍ１２を学習する。事前に話者埋め込みモデルｍ１２のみを学習した後に、出力１の損失関数を考慮した学習を実行することで、機械学習モデルｍ１全体の性能及び学習効率の向上が期待できる。

【0050】

また、応答生成モデルｍ１１のみで学習が行われてもよい。その場合、学習部１１は、入力１に対する出力１の損失関数のみを考慮して応答生成モデルｍ１１を学習する。この際に、応答生成モデルｍ１１に対して入力される話者埋め込みベクトルｖ１は、事前に計算されたものであってもよいし、全て０又はランダムな値のベクトルであってもよい。応答生成モデルｍ１１のみを学習した後で、機械学習モデルｍ１全体の学習を行うことで、機械学習モデルｍ１全体の性能及び学習効率の向上が期待できる。

【0051】

なお、学習については機械学習において一般的な又は公知な学習方法に基づいて行われればよく、入力として与えられたデータを機械学習モデルｍ１が変換し、出力したデータが、所定の目的に応じた理想的出力に近くなるように学習が行われればよい。理想的出力は、上記においては、話者情報及び発話履歴に対する正解応答といった形式で与えられる。

【0052】

［推論時］
以下の説明における機械学習モデルｍ１（話者埋め込みモデルｍ１２及び応答生成モデルｍ１１）は、学習済みのモデルである。

【0053】

応答生成部１２は、例えば、ユーザから発話の履歴及び話者情報を入力した場合に、機械学習モデルｍ１（応答生成モデルｍ１１）が出力する情報に基づいて、当該発話の履歴に対する応答を生成する。当該話者情報は、話者ＩＤのみでもよいし、ペルソナ文のみでもよいし、話者ＩＤ及びペルソナ文の双方を含んでもよい。

【0054】

応答生成部１２は、発話の履歴を入力１として、話者情報を入力２として機械学習モデルｍ１に入力する。この際、話者埋め込みモデルｍ１２は出力２を出力しなくてもよい。すなわち、推論時において、話者埋め込みモデルｍ１２のデコーダは必須ではない。但し、出力２を出力させることで、正しい話者が再現できているか確認しても構わない。

【0055】

機械学習モデルｍ１（応答生成モデルｍ１１）は、当該話者情報及び当該発話履歴に対応する応答を出力１として出力する。

【0056】

なお、厳密には、応答生成モデルｍ１１としてのニューラルネットワークからの出力は、応答を示すテキストデータそのものではなく、応答の確率分布等である。したがって、応答生成部１２は、応答もでるからの出力に対し、ビームサーチなど、一般的な自然言語処理のモデルで用いられる出力（デコーディング）手法を用いることで応答を示すテキストデータを生成する。

【0057】

なお、図４、図５又は図６の話者埋め込みモデルｍ１２が生成した複数の話者埋め込みベクトルｖ１を用いた加算、平均の計算が可能である。

【0058】

例えば、入力２の話者情報として話者Ａの話者ＩＤを入力した話者埋め込みモデルｍ１２が生成した話者埋め込みベクトルｖ１をベクトルｖａとする。また、入力２の話者情報としてペルソナ文「私は優しいです」を入力した話者埋め込みモデルｍ１２が生成した話者埋め込みベクトルｖ１をベクトルｖｂとする。ベクトルｖａとベクトルｖｂとを加算又は平均することで、「優しい」話者Ａという、双方の特徴を持った話者埋め込みベクトルｖ１を生成することができる。更に１以上の話者ＩＤ又はペルソナ文に基づく話者埋め込みベクトルｖ１を加算又は平均することで、更なる特徴を話者埋め込みベクトルｖ１に含めることができる。

【0059】

したがって、応答生成部１２は、例えば、複数の話者情報をユーザから入力し、それぞれを個別に話者埋め込みモデｍ１２に入力してもよい。この場合、話者埋め込みモデルｍ１２は、複数の話者埋め込みベクトルｖ１を生成する。応答生成モデルｍ１１は、発話の履歴の１回の入力に対して、当該複数の話者埋め込みベクトルｖ１を加算又は平均した結果を受け取って応答を生成してもよい。

【0060】

上述したように、本実施の形態によれば、従来において応答を生成する際の尤度最大化で学習されていた話者埋め込みについて、話者ＩＤとペルソナ文の両方を受け取ることが可能な話者埋め込みモデルｍ１２を用いるとともに、例えば、ＶＡＥ（構造等を用いて話者ＩＤ及びペルソナ文の復元を行うことで、ペルソナ文を用いることが可能な制御性と、ＶＡＥによって話者埋め込みの内挿性を獲得することができる。したがって、特定の話者の特徴を学習、再現、反映する際に、特定の話者の特徴の発話の生成に関する制御性及び内挿性を向上させることができる。

【0061】

以上の実施形態に関し、更に以下の付記を開示する。

【0062】

（付記項１）
メモリと、
前記メモリに接続された少なくとも１つのプロセッサと、
を含み、
前記プロセッサは、
話者を識別するトークン及び前記話者の特徴を示すテキストを含む話者情報を入力した話者埋め込みモデルが前記話者情報を再現するように話者埋め込みモデルを学習し、前記話者埋め込みモデルが前記話者情報に基づいて生成する潜在表現と、対話における発話の履歴とを入力した応答生成モデルが前記話者情報及び前記履歴に対する正解の応答を再現するように応答生成モデルを学習する、
ことを特徴とする応答生成学習装置。

【0063】

（付記項２）
メモリと、
前記メモリに接続された少なくとも１つのプロセッサと、
を含み、
前記プロセッサは、
話者を識別するトークン及び前記話者の特徴を示すテキストを含む話者情報を入力した話者埋め込みモデルが前記話者情報を再現するように学習された話者埋め込みモデルと、前記話者埋め込みモデルが前記話者情報に基づいて生成する潜在表現と、対話における発話の履歴とを入力した応答生成モデルが前記話者情報及び前記履歴に対する正解の応答を再現するように学習された応答生成モデルとを用いて、
前記話者埋め込みモデルに話者情報を入力し、前記応答生成モデルに対話における発話の履歴を入力した場合に前記話者埋め込みモデルの潜在表現を用いて前記応答生成モデルが出力する情報に基づいて当該発話の履歴に対する応答を生成する、
ことを特徴とする応答生成装置。

【0064】

（付記項３）
話者を識別するトークン及び前記話者の特徴を示すテキストを含む話者情報を入力した話者埋め込みモデルが前記話者情報を再現するように話者埋め込みモデルを学習し、前記話者埋め込みモデルが前記話者情報に基づいて生成する潜在表現と、対話における発話の履歴とを入力した応答生成モデルが前記話者情報及び前記履歴に対する正解の応答を再現するように応答生成モデルを学習するように構成されている学習手順、
をコンピュータに実行させるプログラムを記録した記録媒体。

【0065】

（付記項４）
話者を識別するトークン及び前記話者の特徴を示すテキストを含む話者情報を入力した話者埋め込みモデルが前記話者情報を再現するように学習された話者埋め込みモデルと、前記話者埋め込みモデルが前記話者情報に基づいて生成する潜在表現と、対話における発話の履歴とを入力した応答生成モデルが前記話者情報及び前記履歴に対する正解の応答を再現するように学習された応答生成モデルとを用いて、
前記話者埋め込みモデルに話者情報を入力し、前記応答生成モデルに対話における発話の履歴を入力した場合に前記話者埋め込みモデルの潜在表現を用いて前記応答生成モデルが出力する情報に基づいて当該発話の履歴に対する応答を生成する応答生成手順、
をコンピュータに実行させるプログラムを記録した記録媒体。

【0066】

なお、本実施の形態において、学習時の応答生成装置１０は、応答生成学習装置の一例である。

【0067】

以上、本発明の実施の形態について詳述したが、本発明は斯かる特定の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の要旨の範囲内において、種々の変形・変更が可能である。

【符号の説明】

【0068】

１０応答生成装置
１１学習部
１２応答生成部
１００ドライブ装置
１０１記録媒体
１０２補助記憶装置
１０３メモリ装置
１０４プロセッサ
１０５インタフェース装置
Ｂバス

【図1】