特許第6180340号(P6180340)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社デンソーアイティーラボラトリの特許一覧

特許6180340対話文生成装置、対話文生成方法およびプログラム
<>
  • 特許6180340-対話文生成装置、対話文生成方法およびプログラム 図000009
  • 特許6180340-対話文生成装置、対話文生成方法およびプログラム 図000010
  • 特許6180340-対話文生成装置、対話文生成方法およびプログラム 図000011
  • 特許6180340-対話文生成装置、対話文生成方法およびプログラム 図000012
  • 特許6180340-対話文生成装置、対話文生成方法およびプログラム 図000013
  • 特許6180340-対話文生成装置、対話文生成方法およびプログラム 図000014
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6180340
(24)【登録日】2017年7月28日
(45)【発行日】2017年8月16日
(54)【発明の名称】対話文生成装置、対話文生成方法およびプログラム
(51)【国際特許分類】
   G06F 17/28 20060101AFI20170807BHJP
   G10L 15/22 20060101ALI20170807BHJP
【FI】
   G06F17/28 681
   G10L15/22 300Z
【請求項の数】6
【全頁数】14
(21)【出願番号】特願2014-27966(P2014-27966)
(22)【出願日】2014年2月17日
(65)【公開番号】特開2015-153261(P2015-153261A)
(43)【公開日】2015年8月24日
【審査請求日】2016年7月20日
(73)【特許権者】
【識別番号】502324066
【氏名又は名称】株式会社デンソーアイティーラボラトリ
(74)【代理人】
【識別番号】100113549
【弁理士】
【氏名又は名称】鈴木 守
(74)【代理人】
【識別番号】100115808
【弁理士】
【氏名又は名称】加藤 真司
(72)【発明者】
【氏名】内海 慶
(72)【発明者】
【氏名】塚原 裕史
【審査官】 長 由紀子
(56)【参考文献】
【文献】 特開2008−293098(JP,A)
【文献】 国際公開第2013/080406(WO,A1)
【文献】 内海 慶 外1名,ウェブ検索クエリログとクリックスルーログを用いた同義語獲得,情報処理学会論文誌 論文誌トランザクション 2012(平成24)年度2 [CD−ROM],日本,一般社団法人情報処理学会,2013年 4月15日,第6巻第1号,p.16-28
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/20−28
G10L 15/22
(57)【特許請求の範囲】
【請求項1】
対話ログコーパスより抽出した対話文に基づいて生成した単語と文パターンとの間の関連度から計算したグラフラプラシアンと、対話ログコーパスの文パターン間の遷移行列とを記憶した記憶部と、
文の入力を受け付ける文入力部と、
入力文から固有表現を抽出する固有表現抽出部と、
抽出した固有表現に基づいて入力文の文パターンを判定するパターン判定部と、
前記記憶部に記憶された遷移行列を読み出し、前記遷移行列を用いて入力文の文パターンに対応する応答文のパターンシードを抽出するパターンシード抽出部と、
前記固有表現抽出部にて抽出された固有表現から特徴語を抽出する特徴語抽出部と、
前記記憶部から前記グラフラプラシアンを読み出し、前記グラフラプラシアン上で、前記応答文のパターンシードと前記特徴語を初期値としてラプラシアンラベル伝搬を行い、応答文に含めるべき単語を求めるラプラシアンラベル伝搬部と、
前記応答文のパターンに前記ラプラシアンラベル伝搬部にて求めた単語を入れて応答文を生成する対話文生成部と、
前記応答文を出力する出力部と、
を備える対話文生成装置。
【請求項2】
対話ログコーパスより抽出した対話文に基づいて生成した単語と文パターンとの間の関連度から計算したグラフラプラシアンを記憶した記憶部と、
単語の入力を受け付ける入力部と、
前記記憶部から前記グラフラプラシアンを読み出し、前記グラフラプラシアン上で、前記単語を初期値としてラプラシアンラベル伝搬を行い、文パターンと、文に含めるべき単語を求めるラプラシアンラベル伝搬部と、
前記ラプラシアンラベル伝搬部にて求めた文パターン及び単語を用いて対話文を生成する対話文生成部と、
前記対話文を出力する出力部と、
を備える対話文生成装置。
【請求項3】
対話ログコーパスより抽出した対話文に基づいて生成した単語と文パターンとの間の関連度から計算したグラフラプラシアンと、対話ログコーパスの文パターン間の遷移行列とを記憶した記憶部とを備える対話文生成装置によって対話文を生成する方法であって、
前記対話文生成装置が、文の入力を受け付けるステップと、
前記対話文生成装置が、入力文から固有表現を抽出するステップと、
前記対話文生成装置が、抽出した固有表現に基づいて入力文の文パターンを判定するステップと、
前記対話文生成装置が、前記記憶部に記憶された遷移行列を読み出し、前記遷移行列を用いて入力文の文パターンに対応する応答文のパターンシードを抽出するステップと、
前記対話文生成装置が、入力文から抽出された固有表現から特徴語を抽出するステップと、
前記対話文生成装置が、前記記憶部から前記グラフラプラシアンを読み出し、前記グラフラプラシアン上で、前記応答文のパターンシードと前記特徴語を初期値としてラプラシアンラベル伝搬を行い、応答文に含めるべき単語を求めるステップと、
前記対話文生成装置が、前記応答文のパターンに、ラプラシアンラベル伝搬部によって求めた単語を入れて応答文を生成するステップと、
前記対話文生成装置が、前記応答文を出力するステップと、
を備える対話文生成方法。
【請求項4】
対話ログコーパスより抽出した対話文に基づいて生成した単語と文パターンとの間の関連度から計算したグラフラプラシアンを記憶した記憶部を備える対話文生成装置によって、対話文を生成する方法であって、
前記対話文生成装置が、単語の入力を受け付けるステップと、
前記対話文生成装置が、前記記憶部から前記グラフラプラシアンを読み出し、前記グラフラプラシアン上で、前記単語を初期値としてラプラシアンラベル伝搬を行い、文パターンと、文に含めるべき単語を求めるステップと、
前記対話文生成装置が、求めた文パターン及び単語を用いて応答文を生成するステップと、
前記対話文生成装置が、前記応答文を出力するステップと、
を備える対話文生成方法。
【請求項5】
対話ログコーパスより抽出した対話文に基づいて生成した単語と文パターンとの間の関連度から計算したグラフラプラシアンと、対話ログコーパスの文パターン間の遷移行列とを記憶した記憶部とを備えるコンピュータに、対話文を生成させるプログラムであって、前記コンピュータに、
文の入力を受け付けるステップと、
入力文から固有表現を抽出するステップと、
抽出した固有表現に基づいて入力文の文パターンを判定するステップと、
前記記憶部に記憶された遷移行列を読み出し、前記遷移行列を用いて入力文の文パターンに対応する応答文のパターンシードを抽出するステップと、
入力文から抽出された固有表現から特徴語を抽出するステップと、
前記記憶部から前記グラフラプラシアンを読み出し、前記グラフラプラシアン上で、前記応答文のパターンシードと前記特徴語を初期値としてラプラシアンラベル伝搬を行い、応答文に含めるべき単語を求めるステップと、
前記応答文のパターンに、ラプラシアンラベル伝搬部によって求めた単語を入れて応答文を生成するステップと、
前記応答文を出力するステップと、
を実行させるプログラム。
【請求項6】
対話ログコーパスより抽出した対話文に基づいて生成した単語と文パターンとの間の関連度から計算したグラフラプラシアンを記憶した記憶部を備えるコンピュータに、対話文を生成させるプログラムであって、
単語の入力を受け付けるステップと、
前記記憶部から前記グラフラプラシアンを読み出し、前記グラフラプラシアン上で、前記単語を初期値としてラプラシアンラベル伝搬を行い、文パターンと、文に含めるべき単語を求めるステップと、
求めた文パターン及び単語を用いて応答文を生成するステップと、
前記応答文を出力するステップと、
を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対話処理における対話文生成に関する。
【背景技術】
【0002】
対話文生成とは、人間の行った発話に対して、自然な対話となるよう機械が自動的に応答文を生成することであり、Siri等をはじめとする音声対話システムで用いられている。従来、対話文の生成には人間の手による文のテンプレートが用いられてきた(特許文献1、2)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2010−72578号公報
【特許文献2】特開2004−110524号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、人間がテンプレートを生成するコストは高く、そのために機械が生成できる文の型には限りがある。そこで、大量の対話のログを用いて自動的に文のテンプレートを獲得し、対話文を生成する技術が望まれる。
【0005】
そこで、本発明は、人手による文テンプレートの問題を解決し、大規模な対話ログから文テンプレートを獲得するとともに、テンプレートのスロットを埋める単語集合についても自動で獲得する手法を提案する。
【課題を解決するための手段】
【0006】
本発明の対話文生成装置は、対話ログコーパスより抽出した対話文に基づいて生成した単語と文パターンとの間の関連度から計算したグラフラプラシアンと、対話ログコーパスの文パターン間の遷移行列とを記憶した記憶部と、文の入力を受け付ける文入力部と、入力文から固有表現を抽出する固有表現抽出部と、抽出した固有表現に基づいて入力文の文パターンを判定するパターン判定部と、前記記憶部に記憶された遷移行列を読み出し、前記遷移行列を用いて入力文の文パターンに対応する応答文のパターンシードを抽出するパターンシード抽出部と、前記固有表現抽出部にて抽出された固有表現から特徴語を抽出する特徴語抽出部と、前記記憶部から前記グラフラプラシアンを読み出し、前記グラフラプラシアン上で、前記応答文のパターンシードと前記特徴語を初期値としてラプラシアンラベル伝搬を行い、応答文に含めるべき単語を求めるラプラシアンラベル伝搬部と、前記応答文のパターンに前記ラプラシアンラベル伝搬部にて求めた単語を入れて応答文を生成する応答文生成部と、前記応答文を出力する出力部とを備える。
【0007】
従来、単語の意味カテゴリ獲得のためにラプラシアンラベル伝搬を用いた研究は知られていたが、ラプラシアンラベル伝搬を用いて対話文を生成する試みはなされていなかった。本発明では、入力文の文パターンを判定した上で、入力文の文パターンに対応する応答文の文パターンを抽出し、応答文のパターンシードと特徴語を初期値としてラプラシアンラベル伝搬を行うことにより、入力文に対する応答文を生成する。このように、入力された文をそのまま使うのではなく、文パターンという形に抽象化して集約することにより、グラフがスパースになり過ぎないように工夫し、単語獲得の再現率を上げている。また、固有表現抽出を用いて単語クラスを文パターンおよび獲得される単語に付与しているので、
文パターン中の適切な箇所を獲得した単語で置き換えることが可能となる。ここで、グラフラプラシアンは、対話ログコーパスより抽出した対話文に基づいて生成しているので、応答文生成に必要なデータを人手によらず、自動で生成することができる。なお、グラフラプラシアンとは、グラフの構造を正規化した行列で表現したものである。本発明では、グラフラプラシアンを用いたラプラシアンラベル伝搬を用いたことにより、初期値である特徴語から関連性の低い単語へとラベル伝搬することが起こりにくく、意味ドリフトを抑制できる。
【0008】
また、本発明の別の態様の対話文生成装置は、対話ログコーパスより抽出した対話文に基づいて生成した単語と文パターンとの間の関連度から計算したグラフラプラシアンを記憶した記憶部と、単語の入力を受け付ける入力部と、前記記憶部から前記グラフラプラシアンを読み出し、前記グラフラプラシアン上で、前記単語を初期値としてラプラシアンラベル伝搬を行い、文パターンと、文に含めるべき単語を求めるラプラシアンラベル伝搬部と、前記ラプラシアンラベル伝搬部にて求めた文パターン及び単語を用いて応答文を生成する応答文生成部と、前記応答文を出力する出力部とを備える。
【0009】
このように単語から関連する文を生成する場合にも、本発明を適用することができる。これにより、入力された単語の概念を含む文を生成することができる。
【0010】
本発明の対話文生成方法は、対話ログコーパスより抽出した対話文に基づいて生成した単語と文パターンとの間の関連度から計算したグラフラプラシアンと、対話ログコーパスの文パターン間の遷移行列とを記憶した記憶部とを備える対話文生成装置によって対話文を生成する方法であって、前記対話文生成装置が、文の入力を受け付けるステップと、前記対話文生成装置が、入力文から固有表現を抽出するステップと、前記対話文生成装置が、抽出した固有表現に基づいて入力文の文パターンを判定するステップと、前記対話文生成装置が、前記記憶部に記憶された遷移行列を読み出し、前記遷移行列を用いて入力文の文パターンに対応する応答文のパターンシードを抽出するステップと、前記対話文生成装置が、入力文から抽出された固有表現から特徴語を抽出するステップと、前記対話文生成装置が、前記記憶部から前記グラフラプラシアンを読み出し、前記グラフラプラシアン上で、前記応答文のパターンシードと前記特徴語を初期値としてラプラシアンラベル伝搬を行い、応答文に含めるべき単語を求めるステップと、前記対話文生成装置が、前記応答文のパターンに、ラプラシアンラベル伝搬部によって求めた単語を入れて応答文を生成するステップと、前記対話文生成装置が、前記応答文を出力するステップとを備える。
【0011】
また、本発明の別の態様の対話文生成方法は、対話ログコーパスより抽出した対話文に基づいて生成した単語と文パターンとの間の関連度から計算したグラフラプラシアンを記憶した記憶部を備える対話文生成装置によって、対話文を生成する方法であって、前記対話文生成装置が、単語の入力を受け付けるステップと、前記対話文生成装置が、前記記憶部から前記グラフラプラシアンを読み出し、前記グラフラプラシアン上で、前記単語を初期値としてラプラシアンラベル伝搬を行い、文パターンと、文に含めるべき単語を求めるステップと、前記対話文生成装置が、求めた文パターン及び単語を用いて応答文を生成するステップと、前記対話文生成装置が、前記応答文を出力するステップとを備える。
【0012】
本発明のプログラムは、コンピュータに上記対話文生成方法を実行させるプログラムである。
【発明の効果】
【0013】
本発明によれば、これまで人手によって作られてきた文テンプレートを、対話ログを用いることで自動的に獲得することができる。これによって、従来は、コスト面で難しかった多様な文の生成を、ログデータを増やすだけで実現できるようになる。加えて、パターンのスロットを埋める単語候補についても、同義語辞書やシソーラスといった言語資源を必要とせずにログデータから取得することができる。
【図面の簡単な説明】
【0014】
図1】第1の実施の形態の対話文生成装置の構成を示す図である。
図2】ラプラシアンラベル伝搬の説明図である。
図3】第1の実施の形態の対話文生成装置の動作を示す図である。
図4】第1の実施の形態の対話文生成装置の動作を示す図である。
図5】第2の実施の形態の対話文生成装置の構成を示す図である。
図6】第2の実施の形態の対話文生成装置の動作を示す図である。
【発明を実施するための形態】
【0015】
以下、本発明の実施の形態の対話文生成装置について、図面を参照しながら説明する。
図1は、実施の形態に係る対話文生成装置1の構成を示す図である。対話文生成装置1のハードウェアは、CPU、RAM、ROM、ハードディスク、ディスプレイ、キーボード、マウス、通信インターフェース等を備えたコンピュータである。コンピュータに、対話文生成のプログラムを実行させることにより、図1に示す対話文生成装置1が実現される。このように対話文生成装置1を実現するプログラムも本発明の範囲に含まれる。
【0016】
対話文生成装置1は、事前計算部10と、文生成部20とを有している。事前計算部10は、応答文の生成に用いる文パターン遷移行列と、グラフラプラシアンを生成する機能を有する。文パターン遷移行列とグラフラプラシアンは、それぞれ文パターン遷移行列記憶部17およびグラフラプラシアン記憶部18に記憶される。文生成部20は、文パターン遷移行列およびグラフラプラシアンを用いて、入力された文に応答する応答文を生成する機能を有する。
【0017】
対話文生成装置1には対話ログコーパス30のデータベースがネットワーク等を介して接続されており、対話文生成装置1は、対話ログコーパス30から対話ログのデータを取得する。なお、対話文生成装置1は、対話ログコーパス30からではなく、例えば、インターネット上にあるインタビュー等の対話形式の記事や掲示板のデータから対話ログを取得してもよい。
【0018】
事前計算部10は、対話ログ入力部11と、固有表現抽出部12と、文パターン抽出部13と、文パターン遷移行列構築部14と、2部グラフ構築部15と、グラフラプラシアン計算部16とを有している。対話ログ入力部11は、対話ログコーパス30から対話ログの入力を受け付ける機能を有する。
【0019】
固有表現抽出部12は、対話ログから固有表現を抽出する機能を有する。固有表現抽出は、計算機を用いた自然言語処理技術の一つであり、固有名詞(人名、地名など)や日付、時間表現などを抽出する技術である。IREX(Information Retrieval and Extraction Exercise)の定義によれば、固有表現には、組織名(ORGANIZATION)、人名(PERSON)、地名(LOCATION)、日付表現(DATE)、時間表現(TIME)、金額表現(MONEY)、割合表現(PERCENT)、固有物名(ARTIFACT)の8種類があり、本実施の形態の対話文生成装置1は、これを用いる。
【0020】
文パターン抽出部13は、対話ログから抽出した固有表現をスロットに置き換えて文パターンを生成する機能も有する。例えば、「今日はかぐや姫を見ました。」という文から固有表現を抽出すると、「今日(DATE)は(O)かぐや姫(ARTIFACT)を(O)見ま(O)した(O)。」となり、「今日」と「かぐや姫」が固有表現として抽出される。なお、「O」は、固有表現ではない(OUTSIDE)という意味である。上記例文の固有表現をスロットに置き換えると、「(DATE)は(ARTIFACT)を見ました。」となる。これが、文パターンである。文パターン抽出部13は、対話ログコーパス30から取得した対話ログの文パターンを生成する。この際、異なる対話文から同じ文パターンが生成される場合もあり、文パターンが集約される。
【0021】
文パターン遷移行列構築部14は、発話文の文パターンからどの応答文の文パターンに遷移したかを定義する遷移行列を構築する機能を有する。文パターン遷移行列構築部14は、文パターン抽出部13にて生成した文パターンを受け取り、発話文の文パターンから応答文の文パターンへの遷移に基づいて、発話文の文パターンと応答文の文パターンの遷移行列を構築する。具体的には、発話文の全ての文パターンを行に、応答文の全ての文パターンを列にとり、発話文の文パターンから応答文の文パターンに遷移した回数を要素とした行列を生成する。このような遷移行列を用いることで、発話文の文パターンから応答文の文パターンに遷移する確率を求めることができる。文パターン遷移行列構築部14は、構築した文パターン遷移行列を文パターン遷移行列記憶部17に記憶する。
【0022】
2部グラフ構築部15は、単語と文パターンとの間の関連度をエッジの重みとした2部グラフを生成する機能を有する。2部グラフとは、頂点集合を二つの部分集合に分割して各集合内の頂点同士の間には辺がないようにできるグラフのことである。
【0023】
図2は、本実施の形態の2部グラフ構築部15が構築する2部グラフの例を示す図である。図2に示すように、左側に単語の集合、右側に文パターンの集合があり、関連を有する単語と文パターンとの間にはエッジが張られている。このエッジは、単語と文パターンの関連の強さを表すものである。
【0024】
2部グラフ構築部15は、固有表現抽出部12にて固有表現として抽出した単語を受け取り、文パターン抽出部13にて抽出した文パターンを受け取る。2部グラフ構築部15は、文パターンとその文パターンで出現する単語に基づいて、単語と文パターンの関連度を求め、2部グラフを構築する。対話文生成装置1において、2部グラフの構造は行列の形で保持される。すなわち、固有表現抽出部12にて抽出された全ての単語を行に、文パターン抽出部13にて抽出された全ての文パターンを列にとり、文パターンにおける単語の出現回数を要素とした行列を生成する。以下の説明において、この行列を「単語−文パターン行列W」という。
【0025】
グラフラプラシアン計算部16は、2部グラフからグラフラプラシアンLを計算する。グラフラプラシアンLは次の式によって計算される。
L=I−D(A)-1/2・A・D(A)-1/2
ここで、Aは隣接行列で、A=WT・Wである。隣接行列Aは、単語どうしの共起頻度を表す行列である。D(A)は次数対角行列であり、その要素は次の式で表される。
【数1】
【0026】
このようにグラフラプラシアンは、次数対角行列を平方根で割った行列を隣接行列Aの前後から掛けて得られた行列を、単位行列から引くことにより、グラフラプラシアンLの列方向と行方向の総和はそれぞれ0となる。このように正規化したグラフラプラシアンを用いたラプラシアンラベル伝搬は、グラフ中の自己類似度の重みを減じる効果があるため、ジェネリックパターンに高い重みを付与することがなく、意味ドリフトが起こりにくい。グラフラプラシアン計算部16は、求めたグラフラプラシアンのデータをグラフラプラシアン記憶部18に記憶する。
【0027】
[文生成部20の構成]
次に、文生成部20の構成について説明する。文生成部20は、入力された対話文に対して応答する応答文を生成する。文生成部20は、文入力部21と、固有表現抽出部22と、入力文パターン判定部23と、応答文パターンシード抽出部24と、特徴語抽出部25と、ラプラシアンラベル伝搬部26と、応答文生成部27と、応答文出力部28とを有している。
【0028】
文入力部21は、対話文の入力を受け付ける機能を有する。固有表現抽出部22は、事前計算部10が備える固有表現抽出部12と同じ機能を有する。すなわち、固有表現抽出部22は、入力された対話文から固有表現を抽出する。
【0029】
入力文パターン判定部23は、入力された対話文に含まれる固有表現をスロットに置き換えて文パターンを生成し、入力された文パターンと既存の文パターンとを照合して、入力文パターンがどの文パターンに該当するかを判定する機能を有する。応答文パターンシード抽出部24は、文パターン遷移行列記憶部17に記憶された文パターン遷移行列を読み出す。そして、応答文パターンシード抽出部24は、入力文パターン判定部23にて判定された入力文パターンから遷移する可能性の高い応答文の文パターンを、文パターン遷移行列のデータを用いて求める機能を有する。
【0030】
特徴語抽出部25は、固有表現抽出部22にて固有表現として抽出した単語の中から、ラプラシアンラベル伝搬においてシードとして用いるべき特徴語を抽出する。本実施の形態では、抽出された単語のすべてを特徴語として用いるが、入力された文パターンに特徴的な単語を特徴語として用いてもよい。例えば、「今日」、「私」等のように文脈等に関係なく表れる一般的な単語を排除することにより、意味ドリフトの発生を抑制することができる。ここで、ある単語が一般的な単語であるかどうかを判定するためには、例えば、TF−IDF法を用いることができる。
【0031】
ラプラシアンラベル伝搬部26は、グラフラプラシアン記憶部18からグラフラプラシアンのデータを読み出す。そして、ラプラシアンラベル伝搬部26は、応答文パターンシード抽出部24にて抽出した応答文の文パターンと特徴語抽出部25にて抽出した特徴語とをシードとして、ラプラシアンラベル伝搬を行う。ラプラシアンラベル伝搬は、次の式に従って行う。
【数2】
ここで、F(0)はシードのラベル、F(t)はグラフ上で伝搬させた各ノードのラベルを表す。αはシードベクトルとグラフのどちらをどの程度重視するかの調整パラメータであり、ラプラシアンラベル伝搬をリスタート付きのランダムウォークと考えた場合では、αはリスタート確率と見なすことができる。
【0032】
本実施の形態のように、特徴語に加えて応答文の文パターンをシードとして用いる場合には、隣接行列とシードベクトルとの積を取る際にもう一方のシードベクトルを重みづけて加える。すなわち、上記式(1)は、次のように表される。
【0033】
【数3】

グラフラプラシアンLを再掲する。
L=I−D(A)-1/2・A・D(A)-1/2
【0034】
この式は密行列となるためデータが大きくなった場合にはメモリ上に展開できない。そのため、実際には(1)式の第一項は以下のように変形して疎なままで扱う。
【数4】
上記の式の第二項、TWD(WTW)-1/2F(t)は、文パターンのスコアベクトルとなる。
ここで、文パターンのスコアベクトルを
【数5】
とおく。文パターンからのラベル伝搬にも、文パターンシードベクトルを導入し、確率的なリスタートを行うように上記を以下のように変更する。
【数6】
これを(1)式に代入した、文パターンと特徴語の両方をシードとして利用可能なラベル伝搬の式を以下に示す。
【数7】
ここで、Fv(0)は特徴語のシードのラベル、Fp(0)は文パターンシードのラベル、Fv(t)は単語の各ノードのラベルを表す。αは単語のシードベクトルとグラフのどちらをどの程度重視するかの調整パラメータであり、βは文パターンのシードベクトルとグラフのどちらをどの程度重視するかの調整パラメータである。
【0035】
Fv(t)は、単語の全要素数を次元数とするベクトルであり、Fv(t)のi番目の次元の値は、i番目の単語が特徴語と関連する度合いを表す。すなわち、Fv(t)は対象の特徴語に対するスコアベクトルである。入力として与えるFv(0)は、シードとして与えられる特徴語の次元値を1とし、それ以外を0とすることで作成する。また、Fp(0)も同様に、シードとして与えられる文パターンの次元値を1とし、それ以外を0とすることで作成する。ラプラシアンラベル伝搬部26は、このようにして作成されたFv(0)、Fp(0)を用いて、グラフラプラシアン上でラプラシアンラベル伝搬を行い、収束するまで上記式を繰り返し計算していく。これにより、最終的に収束したFv(t)が出力される。Fv(t)は、tステップ終了時の単語のスコアベクトルである。ラプラシアンラベル伝搬部26は、スコアの高い単語を応答文に含めるべき単語として求める。
【0036】
応答文生成部27は、ラプラシアンラベル伝搬部26にて求めた単語を、応答文の文パターンのスロットに入力して応答文を生成する。応答文出力部28は、生成された応答文を出力する。応答文の出力は、例えば、ディスプレイに表示してもよいし、スピーカーから音声出力してもよい。
【0037】
[対話文生成装置1の動作]
次に、本実施の形態の対話文生成装置1の動作について説明する。
図3は、対話文生成装置1が対話文生成の事前準備の動作を示すフローチャートである。対話文生成装置1は、まず、対話ログコーパス30から対話ログを取得する(S10)。対話文生成装置1は、取得した対話ログに含まれる各文の固有表現を抽出すると共に、各文の固有表現をスロットに置き換えて、文パターンを生成する(S11)。
【0038】
続いて、対話文生成装置1は、対話文における文パターンの遷移に基づいて、文パターンの遷移行列を構築する(S12)。具体的には、前述したとおり、発話文の文パターンから応答文の文パターンに遷移した回数を要素とした行列を生成する。対話文生成装置1は、構築した文パターン遷移行列を文パターン遷移行列記憶部17に記憶する。
【0039】
次に、対話文生成装置1は、単語と文パターンとの2部グラフを構築する(S13)。2部グラフの具体例は、図2に示すとおりである。続いて、対話文生成装置1は、2部グラフからグラフラプラシアンを計算し(S14)、グラフラプラシアンのデータをグラフラプラシアン記憶部18に記憶する。以上の動作により、対話ログコーパス30から取得した大量の対話ログを用いて、文パターン遷移行列とグラフラプラシアンを準備することができる。
【0040】
図4は、対話文生成装置1が入力された文に応じて応答文を生成する動作を示すフローチャートである。対話文生成装置1は、文の入力を受け付けると(S20)、入力された文から、固有表現を抽出すると共に、固有表現をスロットに置き換えて文パターンを生成する(S21)。続いて、対話文生成装置1は、抽出した固有表現の中からラプラシアンラベル伝搬に用いる特徴語を抽出する(S22)。本実施の形態では、対話文生成装置1は、固有表現として抽出されたすべての単語を特徴語として用いる。
【0041】
次に、対話文生成装置1は、入力文のパターンの判定を行う(S23)。ここでは、入力文パターン判定部23が、固有表現抽出部22にて抽出された固有表現をスロットに置き換えて文パターンを生成し、生成された文パターンが既存のどの文パターンに該当するかを判定する。対話文生成装置1は、文パターン遷移行列記憶部17から文パターン遷移行列を読み出し、読み出した文パターン遷移行列を用いて、入力文の文パターンに対する応答文の文パターンを抽出する(S24)。求めた応答文の文パターンをラプラシアンラベル伝搬のパターンシードとする。
【0042】
対話文生成装置1は、入力文に含まれる特徴語と、応答文の文パターンをシードとしてラプラシアンラベル伝搬を行う(S25)。対話文生成装置1は、ラプラシアンラベル伝搬の結果、スコアの高かった単語を応答文の文パターンのスロットに入れて応答文を生成し、出力する(S26)。
【0043】
以上、本発明の実施の形態の対話文生成装置1の構成及び動作について説明した。実施の形態の対話文生成装置1は、対話ログコーパス30から取得した対話ログを用いて、自動的に生成した文パターン遷移行列及びグラフラプラシアンを用いて対話文を生成するので、従来は、コスト面で難しかった多様な文の生成を、ログデータを増やすだけで実現できるようになる。また、パターンのスロットを埋める単語候補についても、同義語辞書やシソーラスといった言語資源を必要とせずにログデータから取得することができる。
【0044】
本実施の形態の対話文生成装置1は、入力された文に含まれる特徴語と入力文に対応する応答文の文パターンをシードとして、グラフラプラシアンを用いたラプラシアンラベル伝搬を行うので、意味ドリフトの発生を抑制し、適切な応答文を生成がすることができる。
【0045】
以上、本発明の対話文生成装置1について実施の形態を挙げて詳細に説明したが、本発明は上記した実施の形態に限定されるものではない。
【0046】
上記した実施の形態の対話文生成装置1においては、入力された文に応答する応答文を生成する例を挙げたが、単語の入力に基づいて文を生成することも可能である。例えば、ある単語と同じような意味の単語を含む対話文を生成したい場合等に用いる対話文生成装置2(上記実施の形態の変形例)も本発明の範囲に含まれる。
【0047】
図5は、変形例に係る対話文生成装置2の構成を示す図である。図5に示す対話文生成装置2の基本的な構成は、上記した実施の形態の対話文生成装置1と同じであるが、図5に示す対話文生成装置2では、事前計算部10が文パターン遷移行列構築部14を有しておらず、文生成部20が入力文パターン判定部23、応答文パターンシード抽出部24、特徴語抽出部25を有してない点で異なる。また、文生成部20は、文入力部21の代わりに単語入力部29を備えている。対話文生成装置2が、対話ログからグラフラプラシアンを求めて、事前準備を行う動作は、上記した実施の形態の対話文生成装置1の動作と同じである。
【0048】
図6は、変形例に係る対話文生成装置2によって対話文を生成する動作を示す図である。対話文生成装置2は、単語の入力を受け付ける(S30)。対話文生成装置2は、グラフラプラシアン記憶部18からグラフラプラシアンのデータを読み出し、入力された単語をシードとして、ラプラシアンラベル伝搬を行う(S31)。対話文生成装置2は、ラプラシアンラベル伝搬の結果、ベクトルスコアの高かった文パターン及び単語を求め、求めた文パターンのスロットに単語を入れて対話文を生成し、出力する(S32)。
【0049】
このように単語−文パターン行列を含むグラフラプラシアンを用いてラプラシアンラベル伝搬を行うことにより、入力された単語のみから対話文を生成することができる。
【産業上の利用可能性】
【0050】
本発明によれば、対話ログコーパスから取得した対話ログを用いることで、対話文を生成するためのグラフラプラシアンを自動的に生成することができるという効果を有し、音声対話システム等に有用である。
【符号の説明】
【0051】
1,2 対話文生成装置
10 事前計算部
11 対話ログ入力部
12 固有表現抽出部
13 文パターン抽出部
14 文パターン遷移行列構築部
15 2部グラフ構築部
16 グラフラプラシアン計算部
17 文パターン遷移行列記憶部
18 グラフラプラシアン記憶部
20 文生成部
21 文入力部
22 固有表現抽出部
23 入力文パターン判定部
24 応答文パターンシード抽出部
25 特徴語抽出部
26 ラプラシアンラベル伝搬部
27 応答文生成部
28 応答文出力部
29 単語入力部
図1
図2
図3
図4
図5
図6