IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧

特許7180513対話行為推定装置、対話行為推定方法、対話行為推定モデル学習装置及びプログラム
<>
  • 特許-対話行為推定装置、対話行為推定方法、対話行為推定モデル学習装置及びプログラム 図1
  • 特許-対話行為推定装置、対話行為推定方法、対話行為推定モデル学習装置及びプログラム 図2
  • 特許-対話行為推定装置、対話行為推定方法、対話行為推定モデル学習装置及びプログラム 図3
  • 特許-対話行為推定装置、対話行為推定方法、対話行為推定モデル学習装置及びプログラム 図4
  • 特許-対話行為推定装置、対話行為推定方法、対話行為推定モデル学習装置及びプログラム 図5
  • 特許-対話行為推定装置、対話行為推定方法、対話行為推定モデル学習装置及びプログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-21
(45)【発行日】2022-11-30
(54)【発明の名称】対話行為推定装置、対話行為推定方法、対話行為推定モデル学習装置及びプログラム
(51)【国際特許分類】
   G06F 40/216 20200101AFI20221122BHJP
   G06F 16/90 20190101ALI20221122BHJP
   G06F 40/30 20200101ALI20221122BHJP
【FI】
G06F40/216
G06F16/90 100
G06F40/30
【請求項の数】 4
(21)【出願番号】P 2019075055
(22)【出願日】2019-04-10
(65)【公開番号】P2020173608
(43)【公開日】2020-10-22
【審査請求日】2021-07-26
(73)【特許権者】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(74)【代理人】
【識別番号】110001519
【氏名又は名称】弁理士法人太陽国際特許事務所
(72)【発明者】
【氏名】小林 のぞみ
(72)【発明者】
【氏名】齋藤 邦子
(72)【発明者】
【氏名】富田 準二
【審査官】成瀬 博之
(56)【参考文献】
【文献】特開2017-228160(JP,A)
【文献】特開2016-001242(JP,A)
【文献】木村晋一 他3名,係り受け関係を用いた発話意図推定手法,第63回(平成13年後期)全国大会講演論文集(2),日本,社団法人情報処理学会,2001年09月26日,2-197~2-198頁
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-40/58
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
第1発話文と前記第1発話文の少なくとも直前の発話文を含む前記第1発話文より前の発話文である第2発話文との入力を受け付ける入力部と、
前記第1発話文及び前記第2発話文の各々について、発話文の発話対象を特定する特徴量である発話対象特徴量を含む特徴量を抽出し、抽出した前記第1発話文及び前記第2発話文の各々についての前記特徴量を集約して集約特徴量とする特徴量抽出部と、
前記集約特徴量と、予め学習された、発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプを推定するための対話行為推定モデルとを用いて、前記第1発話文の前記対話行為タイプを推定する対話行為推定部と、
を含み、
前記特徴量抽出部は、
前記第1発話文と前記第2発話文との各々について、主節の述語が含まれる最終文節を、発話文の内容を最も表す文節である発話主要文節として特定し、主節の述語が存在しない場合、発話文の最後の独立詞が含まれる文節を前記発話主要文節として特定する発話主要文節特定部と、
前記発話主要文節特定部により特定された前記第1発話文及び前記第2発話文の各々についての発話主要文節に含まれる、語の品詞、テンス、又はモダリティを、発話文の機能的な特徴量である機能的特徴量として抽出する機能的特徴量抽出部と、
前記発話主要文節特定部により特定された前記第1発話文及び前記第2発話文の各々についての発話主要文節に基づいて、発話主要文節に係る格助詞又は連用助詞を伴う項を抽出し、抽出された項に基づいて、前記第1発話文及び前記第2発話文の各々の前記発話対象特徴量を抽出する発話対象特徴量抽出部と、
前記機能的特徴量抽出部により抽出された前記第1発話文及び前記第2発話文の各々についての前記機能的特徴量と、前記発話対象特徴量抽出部により抽出された前記第1発話文及び前記第2発話文の各々についての前記発話対象特徴量とを集約して前記集約特徴量とする特徴量集約部
を含む対話行為推定装置。
【請求項2】
第1発話文と前記第1発話文の少なくとも直前の発話文を含む前記第1発話文より前の発話文である第2発話文と、前記第1発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプとを含む学習データの入力を受け付ける入力部と、
前記第1発話文及び前記第2発話文の各々について、発話文の発話対象を特定する特徴量である発話対象特徴量を含む特徴量を抽出し、抽出した前記第1発話文及び前記第2発話文の各々についての前記特徴量を集約して集約特徴量とする特徴量抽出部と、
前記特徴量抽出部により抽出された前記第1発話文及び前記第2発話文についての集約特徴量と、発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプを推定するための対話行為推定モデルとに基づいて推定される前記第1発話文の前記対話行為タイプが、前記学習データに含まれる前記第1発話文の前記対話行為タイプと一致するように、前記対話行為推定モデルのパラメータを学習するモデル学習部と、
を含み、
前記特徴量抽出部は、
前記第1発話文と前記第2発話文との各々について、主節の述語が含まれる最終文節を、発話文の内容を最も表す文節である発話主要文節として特定し、主節の述語が存在しない場合、発話文の最後の独立詞が含まれる文節を前記発話主要文節として特定する発話主要文節特定部と、
前記発話主要文節特定部により特定された前記第1発話文及び前記第2発話文の各々についての発話主要文節に含まれる、語の品詞、テンス、又はモダリティを、発話文の機能的な特徴量である機能的特徴量として抽出する機能的特徴量抽出部と、
前記発話主要文節特定部により特定された前記第1発話文及び前記第2発話文の各々についての発話主要文節に基づいて、発話主要文節に係る格助詞又は連用助詞を伴う項を抽出し、抽出された項に基づいて、前記第1発話文及び前記第2発話文の各々の前記発話対象特徴量を抽出する発話対象特徴量抽出部と、
前記機能的特徴量抽出部により抽出された前記第1発話文及び前記第2発話文の各々についての前記機能的特徴量と、前記発話対象特徴量抽出部により抽出された前記第1発話文及び前記第2発話文の各々についての前記発話対象特徴量とを集約して前記集約特徴量とする特徴量集約部
を含む対話行為推定モデル学習装置。
【請求項3】
入力部が、第1発話文と前記第1発話文の少なくとも直前の発話文を含む前記第1発話文より前の発話文である第2発話文との入力を受け付け、
特徴量抽出部が、前記第1発話文及び前記第2発話文の各々について、発話文の発話対象を特定する特徴量である発話対象特徴量を含む特徴量を抽出し、抽出した前記第1発話文及び前記第2発話文の各々についての前記特徴量を集約して集約特徴量とし、
対話行為推定部が、前記集約特徴量と、予め学習された、発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプを推定するための対話行為推定モデルとを用いて、前記第1発話文の前記対話行為タイプを推定する
対話行為推定方法であって、
前記特徴量抽出部が抽出することでは、
発話主要文節特定部が、前記第1発話文と前記第2発話文との各々について、主節の述語が含まれる最終文節を、発話文の内容を最も表す文節である発話主要文節として特定し、主節の述語が存在しない場合、発話文の最後の独立詞が含まれる文節を前記発話主要文節として特定し、
機能的特徴量抽出部が、前記発話主要文節特定部により特定された前記第1発話文及び前記第2発話文の各々についての発話主要文節に含まれる、語の品詞、テンス、又はモダリティを、発話文の機能的な特徴量である機能的特徴量として抽出し、
発話対象特徴量抽出部が、前記発話主要文節特定部により特定された前記第1発話文及び前記第2発話文の各々についての発話主要文節に基づいて、発話主要文節に係る格助詞又は連用助詞を伴う項を抽出し、抽出された項に基づいて、前記第1発話文及び前記第2発話文の各々の前記発話対象特徴量を抽出し、
特徴量集約部が、前記機能的特徴量抽出部により抽出された前記第1発話文及び前記第2発話文の各々についての前記機能的特徴量と、前記発話対象特徴量抽出部により抽出された前記第1発話文及び前記第2発話文の各々についての前記発話対象特徴量とを集約して前記集約特徴量とする対話行為推定方法
【請求項4】
入力部が、第1発話文と前記第1発話文の少なくとも直前の発話文を含む前記第1発話文より前の発話文である第2発話文との入力を受け付け、
特徴量抽出部が、前記第1発話文及び前記第2発話文の各々について、発話文の発話対象を特定する特徴量である発話対象特徴量を含む特徴量を抽出し、抽出した前記第1発話文及び前記第2発話文の各々についての前記特徴量を集約して集約特徴量とし、
対話行為推定部が、前記集約特徴量と、予め学習された、発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプを推定するための対話行為推定モデルとを用いて、前記第1発話文の前記対話行為タイプを推定する
ことを含む処理をコンピュータに実行させるためのプログラムであって、
前記特徴量抽出部が抽出することでは、
発話主要文節特定部が、前記第1発話文と前記第2発話文との各々について、主節の述語が含まれる最終文節を、発話文の内容を最も表す文節である発話主要文節として特定し、主節の述語が存在しない場合、発話文の最後の独立詞が含まれる文節を前記発話主要文節として特定し、
機能的特徴量抽出部が、前記発話主要文節特定部により特定された前記第1発話文及び前記第2発話文の各々についての発話主要文節に含まれる、語の品詞、テンス、又はモダリティを、発話文の機能的な特徴量である機能的特徴量として抽出し、
発話対象特徴量抽出部が、前記発話主要文節特定部により特定された前記第1発話文及び前記第2発話文の各々についての発話主要文節に基づいて、発話主要文節に係る格助詞又は連用助詞を伴う項を抽出し、抽出された項に基づいて、前記第1発話文及び前記第2発話文の各々の前記発話対象特徴量を抽出し、
特徴量集約部が、前記機能的特徴量抽出部により抽出された前記第1発話文及び前記第2発話文の各々についての前記機能的特徴量と、前記発話対象特徴量抽出部により抽出された前記第1発話文及び前記第2発話文の各々についての前記発話対象特徴量とを集約して前記集約特徴量とするプログラム
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対話行為推定装置、対話行為推定方法、対話行為推定モデル学習装置及びプログラムに関する。
【背景技術】
【0002】
従来から、対話システムがユーザの意図を理解して応答を生成するために重要な技術の一つである、対話行為推定が研究されている。対話行為推定とは、対話におけるその発話文の意図を示す対話行為のタイプを推定することである。例えば、「ごめんなさい」という発話文に対して「謝罪」という対話行為のタイプを正しく推定することで、ユーザの「ごめんなさい」という発話文に対して「謝罪受理」という対話行為の応答をすべき、という制御が可能となる。対話行為タイプのセット(対話行為体系)は、各々の研究で研究者が独自に開発したものが用いられることが多いが、最近ではISO24617-2という対話行為体系が提案されている。
【0003】
また、従来の対話行為推定技術では、教師有り学習に基づいてあらかじめ学習した対話行為を推定するためのモデル(対話行為推定モデル)を使用しており、その際の特徴量として、ユーザの発話文を形態素解析し、発話文に含まれる形態素や発話文の直前の対話行為、文字数、単語n-gram等を用いている(例えば非特許文献1)。学習に用いる手法は、例えばサポートベクトルマシン(SVM)、条件付き確率場(CRF)、ロジスティック回帰等が報告されている。
【先行技術文献】
【非特許文献】
【0004】
【文献】福岡知隆,白井清昭,対話行為に固有の特徴を考慮した自由対話システムにおける対話行為推定,自然言語処理 Vol.24, No.4,2017.
【発明の概要】
【発明が解決しようとする課題】
【0005】
対話システムにおける応答発話文の生成は、推定された対話行為タイプごとに応答発話文生成ロジックを適用する方法が一般的である。この観点から、応答すべき発話文生成ロジックに対応した粒度での対話行為体系が推定できることが望ましい。
【0006】
しかしながら、従来の対話行為推定ではその粒度が対応していないという課題がある。例えば、ISO24617-2では「Question」という対話行為タイプが存在するが、当該対話行為タイプには「あなたの名前は?」のようにシステム(第2者)に関する発話文と、「首相の名前は?」のように第3者に関する発話文との両方が含まれる。前者は予め用意したシステムのパーソナルデータベースを検索して回答を生成し、後者は一般のインターネットにある情報を検索して回答を生成するという異なる生成ロジックが想定されるため、これら二つを区別することが必要であるが、従来の対話行為推定は「何について・誰について(以下、発話対象)」は考慮されていない、という問題があった。
【0007】
本発明は上記の点に鑑みてなされたものであり、発話対象を考慮した対話行為タイプを精度よく推定することができる対話行為推定装置、対話行為推定方法、及びプログラムを提供することを目的とする。また、本発明は、発話対象を考慮した対話行為タイプを精度よく推定するための対話行為推定モデル学習装置を提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明に係る対話行為推定装置は、第1発話文と前記第1発話文の少なくとも直前の発話文を含む前記第1発話文より前の発話文である第2発話文との入力を受け付ける入力部と、前記第1発話文及び前記第2発話文の各々について、発話文の発話対象に関する特徴量である発話対象特徴量を含む特徴量を抽出し、抽出した前記第1発話文及び前記第2発話文の各々についての前記特徴量を集約して集約特徴量とする特徴量抽出部と、前記集約特徴量と、予め学習された、発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプを推定するための対話行為推定モデルとを用いて、前記第1発話文の前記対話行為タイプを推定する対話行為推定部と、を備えて構成される。
【0009】
また、本発明に係る対話行為推定方法は、入力部が、第1発話文と前記第1発話文の少なくとも直前の発話文を含む前記第1発話文より前の発話文である第2発話文との入力を受け付け、特徴量抽出部が、前記第1発話文及び前記第2発話文の各々について、発話文の発話対象に関する特徴量である発話対象特徴量を含む特徴量を抽出し、抽出した前記第1発話文及び前記第2発話文の各々についての前記特徴量を集約して集約特徴量とし、対話行為推定部が、前記集約特徴量と、予め学習された、発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプを推定するための対話行為推定モデルとを用いて、前記第1発話文の前記対話行為タイプを推定する。
【0010】
また、本発明に係るプログラムは、入力部が、第1発話文と前記第1発話文の少なくとも直前の発話文を含む前記第1発話文より前の発話文である第2発話文との入力を受け付け、特徴量抽出部が、前記第1発話文及び前記第2発話文の各々について、発話文の発話対象に関する特徴量である発話対象特徴量を含む特徴量を抽出し、抽出した前記第1発話文及び前記第2発話文の各々についての前記特徴量を集約して集約特徴量とし、対話行為推定部が、前記集約特徴量と、予め学習された、発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプを推定するための対話行為推定モデルとを用いて、前記第1発話文の前記対話行為タイプを推定することを含む処理をコンピュータに実行させるためのプログラムである。
【0011】
本発明に係る対話行為推定装置、対話行為推定方法及びプログラムによれば、入力部が、第1発話文と当該第1発話文の直前の発話文である第2発話文との入力を受け付け、特徴量抽出部が、第1発話文及び前記第2発話文の各々について、発話文の発話対象に関する特徴量である発話対象特徴量を抽出し、抽出した第1発話文及び第2発話文の各々についての発話対象特徴量を集約して集約特徴量とする。
【0012】
そして、対話行為推定部が、集約特徴量と、予め学習された、発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプを推定するための対話行為推定モデルとを用いて、第1発話文の対話行為タイプを推定する。
【0013】
このように、第1発話文と当該第1発話文の少なくとも直前の発話文を含む当該第1発話文より前の発話文である第2発話文との各々について、発話文の発話対象に関する特徴量である発話対象特徴量を含む特徴量を抽出し、抽出した第1発話文及び第2発話文の各々についての特徴量を集約した集約特徴量と、予め学習された、発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプを推定するための対話行為推定モデルとを用いて、第1発話文の対話行為タイプを推定することにより、発話対象を考慮した対話行為タイプを精度よく推定することができる。
【0014】
また、本発明に係る対話行為推定装置の前記特徴量抽出部は、前記第1発話文と前記第2発話文との各々について、発話文の内容を最も表す文節である発話主要文節を特定する発話主要文節特定部と、前記発話主要文節特定部により特定された前記第1発話文及び前記第2発話文の各々についての発話主要文節に含まれる、発話文の機能的な特徴量である機能的特徴量を抽出する機能的特徴量抽出部と、前記発話主要文節特定部により特定された前記第1発話文及び前記第2発話文の各々についての発話主要文節に基づいて、前記第1発話文及び前記第2発話文の各々の前記発話対象特徴量を抽出する発話対象特徴量抽出部と、前記機能的特徴量抽出部により抽出された前記第1発話文及び前記第2発話文の各々についての前記機能的特徴量と、前記発話対象特徴量抽出部により抽出された前記第1発話文及び前記第2発話文の各々についての前記発話対象特徴量とを集約して前記集約特徴量とする特徴量集約部を含むことができる。
【0015】
また、本発明に係る対話行為推定モデル学習装置は、第1発話文と前記第1発話文の少なくとも直前の発話文を含む前記第1発話文より前の発話文である第2発話文と、前記第1発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプとを含む学習データの入力を受け付ける入力部と、前記第1発話文及び前記第2発話文の各々について、発話文の発話対象に関する特徴量である発話対象特徴量を含む特徴量を抽出し、抽出した前記第1発話文及び前記第2発話文の各々についての前記特徴量を集約して集約特徴量とする特徴量抽出部と、前記特徴量抽出部により抽出された前記第1発話文及び前記第2発話文についての集約特徴量と、発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプを推定するための対話行為推定モデルとに基づいて推定される前記第1発話文の前記対話行為タイプが、前記学習データに含まれる前記第1発話文の前記対話行為タイプと一致するように、前記対話行為推定モデルのパラメータを学習するモデル学習部と、を備えて構成される。
【0016】
このように、本発明に係る対話行為推定モデル学習装置によれば、第1発話文と当該第1発話文の少なくとも直前の発話文を含む当該第1発話文より前の発話文である第2発話文との各々について、発話文の発話対象に関する特徴量である発話対象特徴量を含む特徴量を抽出し、抽出した第1発話文及び第2発話文の各々についての特徴量を集約した集約特徴量と、対話行為推定モデルとに基づいて推定される第1発話文の対話行為タイプが、学習データに含まれる第1発話文の対話行為タイプと一致するように対話行為推定モデルのパラメータを学習することにより、発話対象を考慮した対話行為タイプを精度よく推定するための対話行為推定モデルを学習することができる。
【発明の効果】
【0017】
本発明の対話行為推定装置、対話行為推定方法、及びプログラムによれば、発話対象を考慮した対話行為タイプを精度よく推定することができる。また、本発明の対話行為推定モデル学習装置によれば、発話対象を考慮した対話行為タイプを精度よく推定するための対話行為推定モデルを学習することができる。
【図面の簡単な説明】
【0018】
図1】本発明の実施の形態に係る対話行為推定モデル学習装置及び対話行為推定装置として機能するコンピュータの概略構成を示すブロック図である。
図2】本発明の実施の形態に係る対話行為推定モデル学習装置の構成を示すブロック図である。
図3】本発明の実施の形態に係る特徴量抽出部の詳細構成を示す概略図である。
図4】本発明の実施の形態に係る対話行為推定モデル学習装置の対話行為推定モデル学習処理ルーチンを示すフローチャートである。
図5】本発明の実施の形態に係る対話行為推定装置の構成を示すブロック図である。
図6】本発明の実施の形態に係る対話行為推定装置の対話行為推定処理ルーチンを示すフローチャートである。
【発明を実施するための形態】
【0019】
<本発明の実施の形態に係る対話行為推定モデル学習装置の構成>
図1及び図2を参照して、本発明の実施の形態に係る対話行為推定モデル学習装置100の構成について説明する。図1は、本発明の実施の形態に係る対話行為推定モデル学習装置100として機能するコンピュータの概略構成を示すブロック図である。図2は、本発明の実施の形態に係る対話行為推定モデル学習装置100の構成を示すブロック図である。
【0020】
図1に示すように、本発明の実施の形態に係る対話行為推定モデル学習装置100は、CPU11と、RAM等のメモリ12と、通信インターフェース(IF)部13と、キーボード等の入力部14と、ディスプレイ等の表示部15と、後述する対話行為推定モデル学習処理ルーチンを実行するためのプログラム17を記憶したROM等の記憶部16とを備えたコンピュータで構成されている。また、CPU11、メモリ12、通信IF部13、入力部14、表示部15、及び記憶部16は、バス10を介して接続されている。また、通信IF部13は、LANケーブル等の通信回線により外部端末と接続することができる。
【0021】
図2に示すように、本発明の実施の形態に係る対話行為推定モデル学習装置100は、入力部110と、テキスト解析部120と、特徴量抽出部130と、モデル学習部140と、対話行為推定モデル記憶部150とを備えて構成される。
【0022】
入力部110は、第1発話文と当該第1発話文の少なくとも直前の発話文を含む当該第1発話文より前の発話文である第2発話文と、当該第1発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプとを含む学習データの入力を受け付ける。具体的には、学習データには、発話文の履歴と、各発話文の対話行為タイプとが含まれており、入力部110は複数の学習データの入力を受け付ける。発話文の履歴には、最後の発話文である第1発話文と、その一つ前の発話文である第2発話文とからなる対を少なくとも含み、対話行為の開始から現時点までの発話文とする。ただし、第1発話文が発話開始の1発話目であった場合、その1つ前の発話文である第2発話文は空となる。当該対を含むものであれば、発話文の集合として、所定期間または所定数、例えば直近の発話文からN個の発話文を発話文の履歴として用いるようにしてもよい。また、第1発話文と第2発話文とは、対話システムにおける発話文であり、第2発話文がシステムの発話、第1発話文がユーザの発話による発話文である。
【0023】
発話対象を考慮した対話行為推定を実現するためには、第1発話文と第2発話文とは、その対話行為の体系自体が、発話対象を考慮した体系となっている必要がある。発話対象を考慮した体系とは、従来の対話行為が、発話対象毎に詳細化されている体系である。例えば、発話対象を考慮した体系は、対話行為のQuestionについて、Question:Iは第1者への質問、Question:IIは第2者への質問、Question:IIIは第3者への質問、というように詳細化されている体系である。すなわち、発話文の発話対象を、話者(ユーザ)である第1者I、話相手(システム)である第2者II、それ以外の人や物である第3者IIIに分類すると定義する。ここで、Question:I~IIIは、発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプとする。以下、本実施の形態では、上記対話行為のQuestionについて発話対象を考慮した体系を例に説明する。
【0024】
学習データの具体例として、
(例1)第2発話文:「こんにちは、何か聞きたいことはありますか?」、第1発話文:「今契約しているサービスについて聞きたいのですが。」、及び第1発話文の対話行為タイプ:「Question:III」、
(例2)第2発話文:「こんにちは、何か聞きたいことはありますか?」、第1発話文:「あなたの名前はなあに?」、第1発話文の対話行為タイプ:「Question:II」
が挙げられる。
【0025】
(例1)では、第1発話文の発話対象は、第3者である「サービス」についてのQuestionであるから、第3者への質問を示す対話行為タイプ「Question:III」が正解として学習データに与えられている。また、(例2)では、第1発話文の発話対象は、第2者である「あなた」についてのQuestionであるから、第2者への質問を示す対話行為タイプ「Question:II」が正解として学習データに与えられている。
【0026】
そして、入力部110は、受け付けた学習データに含まれる第1発話文及び第2発話文をテキスト解析部120に、当該学習データに含まれる第1発話文の対話行為タイプをモデル学習部140にそれぞれ渡す。
【0027】
テキスト解析部120は、第1発話文及び第2発話文の各々について、発話文の形態素情報及び係り受け情報を求める。
【0028】
具体的には、テキスト解析部120は、第1発話文及び第2発話文の各々について、既知の技術である形態素解析、係り受け解析により、形態素情報及び係り受け情報を求める。形態素情報は、品詞、終止形等の形態素に関する情報であり、文節情報は「文節ID、係り先文節ID/係りタイプ、主辞形態素番号/機能語形態素番号」の情報を含む。上記(例1)の第1発話文「今契約しているサービスについて聞きたいのですが」の解析例を下記表に示す。
【0029】
【表1】
【0030】
そして、テキスト解析部120は、第1発話文及び第2発話文の各々について求めた形態素情報及び係り受け情報を、特徴量抽出部130に渡す。
【0031】
特徴量抽出部130は、第1発話文及び第2発話文の各々について、発話文の発話対象に関する特徴量である発話対象特徴量を抽出し、抽出した第1発話文及び第2発話文の各々についての発話対象特徴量を集約して集約特徴量とする。
【0032】
具体的には、図3に示すように、特徴量抽出部130は、単語n-gram抽出部131と、発話主要文節特定部132と、機能的特徴量抽出部133と、発話対象特徴量抽出部134と、特徴量集約部135とを備えて構成される。
【0033】
単語n-gram抽出部131は、第1発話文と第2発話文との各々についてのn-gramを抽出する。
【0034】
具体的には、単語n-gram抽出部131は、テキスト解析部120により求められた第1発話文及び第2発話文の各々についての形態素情報及び係り受け情報から、形態素表記のn-gramを抽出する。例えば上記(例1)の第1発話文「今契約しているサービスについて聞きたいのですが」の5-gramは、以下のようになる。なお、文頭と文末にはそれぞれ「BOS」、「EOS」を付与する。
<<5-gram>>
BOS-今
BOS-今-契約
BOS-今-契約-し
BOS-今-契約-し-て
今-契約-し-て-い
…(中略)…
た-い-の-です-が
い-の-です-が-EOS
の-です-が-EOS
です-が-EOS
【0035】
そして、単語n-gram抽出部131は、抽出したn-gramを特徴量集約部135に渡す。なお、単語n-gram抽出部131は、形態素表記の代わりに標準表記や終止形を使用してn-gramを抽出してもよい。
【0036】
発話主要文節特定部132は、第1発話文と第2発話文との各々について、発話文の内容を最も表す文節である発話主要文節を特定する。
【0037】
具体的には、発話主要文節特定部132は、第1発話文及び第2発話文の各々について、主節の述語が含まれる最終文節が発話主要文節とする。発話主要文節特定部132は、主節の述語が存在しない場合(例えば独立詞等)、発話文の最後の独立詞等が含まれる文節を発話主要文節とする。例えば、発話主要文節特定部132は、「どうもこんにちは」という発話文については、「こんにちは」を発話主要文節として特定する。
【0038】
そして、発話主要文節特定部132は、特定した第1発話文及び第2発話文の各々についての発話主要文節を、機能的特徴量抽出部133及び発話対象特徴量抽出部134に渡す。
【0039】
機能的特徴量抽出部133は、発話主要文節特定部132により特定された第1発話文及び第2発話文の各々についての発話主要文節に含まれる、発話文の機能的な特徴量である機能的特徴量を抽出する。
【0040】
具体的には、機能的特徴量抽出部133は、第1発話文及び第2発話文の各々について、各発話文の発話主要文節に含まれる語の品詞、テンス、モダリティ等、機能に関する特徴量を抽出する。より具体的には、機能的特徴量抽出部133は、下記(1)から(3)の規則を発話主要文節に適用して抽出された特徴量をまとめて、機能的特徴量とする。
(1)発話主要文節の主辞の品詞が「形容詞語幹」、「動詞語幹」、「名詞:動作」、「名詞:形容」の場合、該当する品詞を「MPOS_」と結合して特徴量とする。
(2)発話文がただ一つの文節しかもたない場合、「ONLY」を特徴量とする。
(3)発話主要文節の主辞より後に出現する機能語を抽出し、下記(3-A)、(3-B)に該当する情報があればテンス情報(過去)、モダリティ情報(願望・意志・命令・禁止・疑問等)の特徴量として抽出する。
(3-A)テンス情報の抽出
述語の後ろに品詞に「接尾辞:終止」を含む形態素表記「た」が存在する場合、「PAST_T」を出力する。
(3-B)モダリティ情報の抽出
・『願望』:述語の後ろに、終止形が「たい」となる形態素が存在すれば「MOD_WNT」を出力する。
・『命令』:動詞が「しろ」、「帰れ」のような命令形であれば「MOD_IMP」を出力する。
・『禁止』:述語が動詞の基本形で、その直後に「な」が存在すれば「MOD_FBD」を出力する。
・『疑問』:文節の末尾形態素が「?」もしくは疑問を表す終助詞「か」、疑問詞「何」「どこ」「誰」等の場合、「MOD_Q」を出力する。
・『依頼』:述語が動詞で、直後の形態素表記が「て」の場合、下記リストに含まれるいずれかの表記が後続するか、又は後続する表記が何も存在しない場合は「MOD_REQ」を出力する。
[リスト]:「くれ」、「ください」、「いただく」、「ちょうだい」、「もらう」、「ほしい」、「もらいたい」
【0041】
例えば、上記(例1)の第1発話文「今契約しているサービスについて聞きたいのですが」の場合、機能的特徴量抽出部133は、発話主要文節の主辞である「聞く」から「MPOS_動詞語幹」、「たい」から「MOD_WNT」を特徴量として抽出し、これらの特徴量をまとめて機能的特徴量とする。機能的特徴量抽出部133は、第2発話文についても同様に機能的特徴量を抽出する。そして、機能的特徴量抽出部133は、抽出した第1発話文及び第2発話文の各々についての機能的特徴量を、特徴量集約部135に渡す。
【0042】
発話対象特徴量抽出部134は、発話主要文節特定部132により特定された第1発話文及び第2発話文の各々についての発話主要文節に基づいて、第1発話文及び第2発話文の各々の発話対象特徴量を抽出する。
【0043】
具体的には、発話対象特徴量抽出部134は、発話主要文節に係る「が」、「は」、「も」、「を」、「について」、「という」等の格助詞や、連用助詞(以下、まとめて格表記という)を伴う項を抽出し、以下の手順で特徴量を生成する。なお、ここでの項は、格助詞や連用助詞を伴って発話主要文節に係る内容語を指す。
【0044】
<<手順>>
格表記の前に出現する名詞相当(品詞が名詞、もしくは未知語)の連続を項の表記として抽出し、以下の(A)~(E)の処理を実施する。
(A)項の表記が「あなた」「お前」「てめえ」「あんた」等の第2者を表す場合、「II_格表記」を発話対象特徴量とする。なお、「格表記」は、該当する表記に置き換えられる。
(B)項の表記が「わたし」「私」「俺」「オレ」等の第1者を表す場合、「I_格表記」を発話対象特徴量とする。
(C)項の表記が上記以外の場合、対象の項に「の」を伴って係る項がある場合、その項について上記(A)(B)を適用する。適用されない場合は「III_格表記」を発話対象特徴量として抽出する。例えば、例1:「サービスについて」→「III_について」、例2:「あなたの名前」→「II_の」とする。
(D)項の表記が存在せず、かつ、発話が対話の先頭(直前に発話が存在しない)の場合、「II_ELM」を発話対象特徴量として抽出する。
(E)項の表記が存在せず、かつ、上記(D)以外の場合、「SBJ_UNK」を発話対象特徴量とする。
【0045】
そして、発話対象特徴量抽出部134は、抽出した第1発話文及び第2発話文の各々についての発話対象特徴量を、特徴量集約部135に渡す。
【0046】
特徴量集約部135は、単語n-gram抽出部131により抽出された第1発話文と第2発話文との各々についてのn-gramと、機能的特徴量抽出部133により抽出された第1発話文及び第2発話文の各々についての機能的特徴量と、発話対象特徴量抽出部134により抽出された第1発話文及び第2発話文の各々についての発話対象特徴量とを集約して集約特徴量とする。
【0047】
具体的には、特徴量集約部135は、単語n-gram特徴量、機能的特徴量、発話対象特徴量を集約して一つの特徴量とする。その際、特徴量集約部135は、第1発話文についての各特徴量と第2発話文についての各特徴量とは、「TARGET」、「PRE」等のラベルを付与することで区別する。なお、発話文の履歴に、二つ以上前の発話文がある場合には、「PRE2」、「PRE3」等の別ラベルを付与することで区別する。これは、第1発話文と当該第1発話文の少なくとも直前(1つ前)の発話文を含む発話文である第2発話文が本発明の実施の形態において重要であるため、それらを区別可能にするために別ラベルを付与するものである。
【0048】
例えば、上記(例1)の第1発話文「今契約しているサービスについて聞きたいのですが」の場合、特徴量集約部135は、「TARGET_BOS-今 TARGET_BOS-今-契約…PRE_BOS-こんにちは…PRE_TARGET_動詞語幹…TARGET_MPOS_動詞語幹 TARGET_MOD_WNT TARGET_III_について PRE_MOD_Q PRE_III_は」を集約特徴量とする。同様に、上記(例2)の第1発話文「あなたの名前はなあに?」の場合、特徴量集約部135は「TARGET_BOS-あなた TARGET_BOS-あなた-の…PRE_ます-か-?-EOS TARGET_MOD_Q TARGET_II_の PRE_MOD_Q PRE_III_は」を集約特徴量とする。そして、特徴量集約部135は、集約特徴量をモデル学習部140に渡す。
【0049】
モデル学習部140は、特徴量抽出部130により抽出された学習データに含まれる第1発話文及び第2発話文についての集約特徴量と、対話行為推定モデルとに基づいて推定される第1発話文の対話行為タイプが、学習データに含まれる第1発話文の対話行為タイプと一致するように対話行為推定モデルのパラメータを学習する。
【0050】
具体的には、モデル学習部140は、既存の機械学習モデルを用いて対話行為推定モデルを学習する。本実施の形態では、ロジスティック回帰を用いて学習する場合を例に説明するが、サポートベクトルマシン(SVM)、条件付き確率場(CRF)等を用いてもよい。モデル学習部140は、発話対象を考慮した対話行為を正しく推定するように、すなわち、特徴量抽出部130により抽出された集約特徴量を対話行為推定モデルに入力した場合に推定される対話行為タイプと、学習データに含まれる第1発話文の対話行為タイプとが一致するように、対話行為推定モデルのパラメータを学習する。モデル学習部140は、所定の終了条件、例えば所定数の学習データについて学習処理を繰り返した場合等の条件を満たすまで、学習処理を繰り返す。そして、モデル学習部140は、学習した対話行為推定モデルのパラメータを、対話行為推定モデル記憶部150に格納する。
【0051】
対話行為推定モデル記憶部150には、対話行為推定モデルとモデル学習部140により学習された対話行為推定モデルのパラメータとが格納されている。
【0052】
<本発明の実施の形態に係る対話行為推定モデル学習装置の作用>
図4は、本発明の実施の形態に係る対話行為推定モデル学習ルーチンを示すフローチャートである。入力部110に学習データが入力されると、対話行為推定モデル学習装置100おいて、図4に示す対話行為推定モデル学習処理ルーチンが実行される。
【0053】
まず、ステップS100において、入力部110は、第1発話文と、当該第1発話文の直前の発話文である第2発話文と、当該第1発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプとを含む学習データの入力を受け付ける。
【0054】
ステップS110において、テキスト解析部120は、第1発話文及び第2発話文の各々について、発話文の形態素情報及び係り受け情報を求める。
【0055】
ステップS120において、単語n-gram抽出部131は、上記ステップS110により入力された第1発話文と第2発話文との各々についてのn-gramを抽出する。
【0056】
ステップS130において、発話主要文節特定部132は、上記ステップS110により入力された第1発話文と第2発話文との各々について、発話文の内容を最も表す文節である発話主要文節を特定する。
【0057】
ステップS140において、機能的特徴量抽出部133は、上記ステップS130により特定された第1発話文及び第2発話文の各々についての発話主要文節に含まれる、発話文の機能的な特徴量である機能的特徴量を抽出する。
【0058】
ステップS150において、発話対象特徴量抽出部134は、上記ステップS130により特定された第1発話文及び第2発話文の各々についての発話主要文節に基づいて、第1発話文及び第2発話文の各々の発話対象特徴量を抽出する。
【0059】
ステップS160において、特徴量集約部135は、上記ステップS120により抽出された第1発話文及び第2発話文の各々についてのn-gramと、上記ステップS140により抽出された第1発話文及び第2発話文の各々についての機能的特徴量と、上記ステップS150により抽出された第1発話文及び第2発話文の各々についての発話対象特徴量とを集約して集約特徴量とする。
【0060】
ステップS170において、モデル学習部140は、上記ステップS160により抽出された学習データに含まれる第1発話文及び第2発話文についての集約特徴量と、対話行為推定モデルとに基づいて推定される第1発話文の対話行為タイプが、上記ステップS110により入力された学習データに含まれる第1発話文の対話行為タイプと一致するように対話行為推定モデルのパラメータを学習する。
【0061】
ステップS180において、モデル学習部140は、終了条件を満たすか否かを判定する。終了条件を満たしていない場合(上記ステップS180のNO)、上記ステップS100に戻り、ステップS100~S180の処理を繰り返す。一方、終了条件を満たしている場合(上記ステップS180のYES)、ステップS190において、モデル学習部140は、学習した対話行為推定モデルのパラメータを、対話行為推定モデル記憶部150に格納する。
【0062】
以上説明したように、本発明の実施の形態に係る対話行為推定モデル学習装置によれば、第1発話文と当該第1発話文の少なくとも直前の発話文を含む当該第1発話文より前の発話文である第2発話文との各々について、発話文の発話対象に関する特徴量である発話対象特徴量を含む特徴量を抽出し、抽出した第1発話文及び第2発話文の各々についての特徴量を集約した集約特徴量と、対話行為推定モデルとに基づいて推定される第1発話文の対話行為タイプが、学習データに含まれる第1発話文の対話行為タイプと一致するように対話行為推定モデルのパラメータを学習することにより、発話対象を考慮した対話行為タイプを精度よく推定するための対話行為推定モデルを学習することができる。
【0063】
<本発明の実施の形態に係る対話行為推定装置の構成>
次に、図1及び図5を参照して、本発明の実施の形態に係る対話行為推定装置200の構成について説明する。なお、本発明の実施の形態に係る対話行為推定モデル学習装置100と同様の構成については、同一の符号を付して詳細な説明は省略する。
【0064】
図1に示すように、本発明の実施の形態に係る対話行為推定装置200は、CPU11と、RAM等のメモリ12と、通信インターフェース(IF)部13と、キーボード等の入力部14と、ディスプレイ等の表示部15と、後述する対話行為推定処理ルーチンを実行するためのプログラム27を記憶したROM等の記憶部16とを備えたコンピュータで構成されている。また、CPU11、メモリ12、通信IF部13、入力部14、表示部15、及び記憶部16は、バス10を介して接続されている。また、通信IF部13は、LANケーブル等の通信回線により外部端末と接続することができる。
【0065】
図5に示すように、本発明の実施の形態に係る対話行為推定装置200は、入力部210と、テキスト解析部120と、特徴量抽出部130と、対話行為推定モデル記憶部150と、対話行為推定部260と、出力部270とを備えて構成される。
【0066】
対話行為推定モデル記憶部150には、対話行為推定モデルと対話行為推定モデル学習装置100により予め学習された対話行為推定モデルのパラメータとが格納されている。
【0067】
入力部210は、第1発話文と当該第1発話文の少なくとも直前の発話文を含む当該第1発話文より前の発話文である第2発話文との入力を受け付ける。そして、入力部210は、受け付けた第1発話文及び第2発話文を、テキスト解析部120に渡す。
【0068】
対話行為推定部260は、集約特徴量と、予め学習された、発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプを推定するための対話行為推定モデルとを用いて、第1発話文の対話行為タイプを推定する。
【0069】
具体的には、対話行為推定部260は、まず、対話行為推定モデル記憶部150から、対話行為推定モデルと対話行為推定モデルのパラメータとを取得する。次に、対話行為推定部260は、特徴量抽出部130により抽出された集約特徴量と、取得した対話行為推定モデルに基づいて、第1発話文の対話行為タイプを推定する。そして、対話行為推定部260は、推定した対話行為タイプを出力部270に渡す。
【0070】
出力部270は、対話行為推定部260により推定された対話行為タイプを出力する。
【0071】
<本発明の実施の形態に係る対話行為推定装置の作用>
図6は、本発明の実施の形態に係る対話行為推定処理ルーチンを示すフローチャートである。なお、本発明の実施の形態に係る対話行為推定モデル学習処理ルーチンと同様の処理については、同一の符号を付して詳細な説明は省略する。
【0072】
ステップS200において、入力部210は、第1発話文と当該第1発話文の少なくとも直前の発話文を含む当該第1発話文より前の発話文である第2発話文との入力を受け付ける。
【0073】
ステップS270において、対話行為推定部260は、対話行為推定モデル記憶部150から、予め学習された、発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプを推定するための対話行為推定モデルと対話行為推定モデルのパラメータとを取得する。
【0074】
ステップS280において、対話行為推定部260は、集約特徴量と、上記ステップS270により取得した対話行為推定モデルとを用いて、第1発話文の対話行為タイプを推定する。
【0075】
ステップS290において、上記ステップS280により推定された第1発話文の対話行為タイプを出力する。
【0076】
以上説明したように、本実施の形態に係る対話行為推定装置によれば、第1発話文と当該第1発話文の少なくとも直前の発話文を含む当該第1発話文より前の発話文である第2発話文との各々について、発話文の発話対象に関する特徴量である発話対象特徴量を含む特徴量を抽出し、抽出した第1発話文及び第2発話文の各々についての特徴量を集約した集約特徴量と、予め学習された、発話文の発話対象を考慮した対話行為の種類を示す対話行為タイプを推定するための対話行為推定モデルとを用いて、第1発話文の対話行為タイプを推定することにより、発話対象を考慮した対話行為タイプを精度よく推定することができる。そして、このように推定した対話行為タイプに基づいて対話システムが応答生成ロジックを適切に選択できるようになることにより、対話システム全体の対話精度を向上できる。
【0077】
また、本実施の形態に係る対話行為推定装置では、集約特徴量にn-gramも含まれるため、従来の対話行為タイプには「挨拶」や「Feedback」のように、発話対象が自明のものについては、従来の体系をそのまま用いることができる。
【0078】
なお、本発明は、上述した実施の形態に限定されるものではなく、この発明の要旨を逸脱しない範囲内で様々な変形や応用が可能である。
【0079】
また、本願明細書中において、プログラムが予めインストールされている実施形態として説明したが、当該プログラムを、コンピュータ読み取り可能な記録媒体に格納して提供することも可能である。
【符号の説明】
【0080】
10 バス
11 CPU
12 メモリ
13 通信IF部
14 入力部
15 表示部
16 記憶部
17 プログラム
27 プログラム
100 対話行為推定モデル学習装置
110 入力部
120 テキスト解析部
130 特徴量抽出部
131 単語n-gram抽出部
132 発話主要文節特定部
133 機能的特徴量抽出部
134 発話対象特徴量抽出部
135 特徴量集約部
140 モデル学習部
150 対話行為推定モデル記憶部
200 対話行為推定装置
210 入力部
260 対話行為推定部
270 出力部
図1
図2
図3
図4
図5
図6