IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特許7474211ユーザから発話された名詞を忘却する対話プログラム、装置及び方法
<>
  • 特許-ユーザから発話された名詞を忘却する対話プログラム、装置及び方法 図1
  • 特許-ユーザから発話された名詞を忘却する対話プログラム、装置及び方法 図2
  • 特許-ユーザから発話された名詞を忘却する対話プログラム、装置及び方法 図3
  • 特許-ユーザから発話された名詞を忘却する対話プログラム、装置及び方法 図4
  • 特許-ユーザから発話された名詞を忘却する対話プログラム、装置及び方法 図5
  • 特許-ユーザから発話された名詞を忘却する対話プログラム、装置及び方法 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-16
(45)【発行日】2024-04-24
(54)【発明の名称】ユーザから発話された名詞を忘却する対話プログラム、装置及び方法
(51)【国際特許分類】
   G10L 15/22 20060101AFI20240417BHJP
   G10L 15/10 20060101ALI20240417BHJP
【FI】
G10L15/22 300Z
G10L15/10 200W
G10L15/10 500N
【請求項の数】 11
(21)【出願番号】P 2021032151
(22)【出願日】2021-03-01
(65)【公開番号】P2022133188
(43)【公開日】2022-09-13
【審査請求日】2023-02-10
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100135068
【弁理士】
【氏名又は名称】早原 茂樹
(72)【発明者】
【氏名】田原 俊一
(72)【発明者】
【氏名】服部 元
【審査官】山下 剛史
(56)【参考文献】
【文献】特開2002-215183(JP,A)
【文献】特開2015-14834(JP,A)
【文献】特開2014-170047(JP,A)
【文献】特開2006-39120(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 15/00-15/34,25/63
(57)【特許請求の範囲】
【請求項1】
ユーザの発話文から対話文を生成する対話制御手段としてコンピュータを機能させるプログラムにおいて、
ユーザの発話音声から発話文に変換する音声解析手段と、
疑問文に対するユーザの発話文に含まれた名詞を抽出する名詞抽出手段と、
抽出された当該名詞を、ユーザ固有情報として登録するメモリ手段と、
当該名詞が登録された際に、ユーザの発話文、顔画像及び発話音声のいずれか又はそれらの組み合わせから、ポジティブ、ネガティブ又はニュートラルの感情極性を推定する感情極性推定手段と、
ポジティブ又はネガティブほど高い感情スコアを算出し、ニュートラルほど低い感情スコアを算出するニュートラル感情算出手段と、
感情スコアが低いほど、メモリ手段における当該名詞の記憶期間を早めて忘却させる忘却制御手段と
してコンピュータを機能させることを特徴とするプログラム。
【請求項2】
感情極性推定手段は、
ユーザの発話文から感情極性を推定する発話感情解析手段と、
ユーザの顔画像から感情極性を推定する顔表情解析手段と、
ユーザの発話音声から感情極性を推定する音声感情解析手段と
のいずれか又はそれらの組み合わせを有する
ようにコンピュータを機能させることを特徴とする請求項1に記載のプログラム。
【請求項3】
メモリ手段は、名詞毎に、発話時刻の降順に低くなる時間スコアを対応付けたものであり、
忘却制御手段は、名詞毎に、時間スコアと感情スコアとの和又は積となる記憶スコアが低いほど、メモリ手段における当該名詞の記憶期間を早めて忘却させる
ようにコンピュータを機能させることを特徴とする請求項1又は2に記載のプログラム。
【請求項4】
メモリ手段は、サイズN(>1)を設定し、記憶スコアの降順に並べた名詞をLRU(Least Recently Used)アルゴリズムによって除外していく
ようにコンピュータを機能させることを特徴とする請求項に記載のプログラム。
【請求項5】
メモリ手段におけるサイズNは、対話エージェントのキャラクタに応じて可変に設定される
ようにコンピュータを機能させることを特徴とする請求項に記載のプログラム。
【請求項6】
忘却制御手段は、メモリ手段に対して、記憶スコア順に、上位n個の名詞について「記憶」と判定し、下位n-1~N個の名詞について「忘却」と判定し、メモリに登録されていない名詞について「未聞」と判定する
ようにコンピュータを機能させることを特徴とする請求項4又は5に記載のプログラム。
【請求項7】
忘却制御手段は、メモリ手段に対して、記憶スコア順に、上位m%の名詞について「記憶」と判定し、下位1-m%の名詞について「忘却」と判定し、メモリに登録されていない名詞について「未聞」と判定する
ようにコンピュータを機能させることを特徴とする請求項4又は5に記載のプログラム。
【請求項8】
忘却制御手段は、メモリ手段に対して、全ての記憶スコアの平均値を算出し、記憶スコア順に、平均値以上の記憶スコアの名詞について「記憶」と判定し、平均値よりも低い記憶スコアの名詞について「忘却」と判定し、メモリに登録されていない名詞について「未聞」と判定する
ようにコンピュータを機能させることを特徴とする請求項4又は5に記載のプログラム。
【請求項9】
メモリ手段は、名詞と共に、当該名詞が含まれる発話文をユーザに発話させた疑問文とを対応付けており、
対話制御手段は、メモリ手段に登録されている名詞に対応する疑問文を、ユーザへ応答しない
ようにコンピュータを機能させることを特徴とする請求項1からのいずれか1項に記載のプログラム。
【請求項10】
ユーザの発話文から対話文を生成する対話制御手段を有する対話装置において、
ユーザの発話音声から発話文に変換する音声解析手段と、
疑問文に対するユーザの発話文に含まれた名詞を抽出する名詞抽出手段と、
抽出された当該名詞を、ユーザ固有情報として登録するメモリ手段と、
当該名詞が登録された際に、ユーザの発話文、顔画像及び発話音声のいずれか又はそれらの組み合わせから、ポジティブ、ネガティブ又はニュートラルの感情極性を推定する感情極性推定手段と、
ポジティブ又はネガティブほど高い感情スコアを算出し、ニュートラルほど低い感情スコアを算出するニュートラル感情算出手段と、
感情スコアが低いほど、メモリ手段における当該名詞の記憶期間を早めて忘却させる忘却制御手段と
を有することを特徴とする対話装置。
【請求項11】
ユーザの発話文から対話文を生成する対話制御手段を有する装置の対話方法において、
装置は、
ユーザの発話音声から発話文に変換する第1のステップと、
疑問文に対するユーザの発話文に含まれた名詞を抽出する第2のステップと、
抽出された当該名詞を、ユーザ固有情報としてメモリに登録する第3のステップと、
当該名詞が登録された際に、ユーザの発話文、顔画像及び発話音声のいずれか又はそれらの組み合わせから、ポジティブ、ネガティブ又はニュートラルの感情極性を推定する第4のステップと、
ポジティブ又はネガティブほど高い感情スコアを算出し、ニュートラルほど低い感情スコアを算出する第5のステップと、
感情スコアが低いほど、メモリにおける当該名詞の記憶期間を早めて忘却させる第6のステップと
を実行することを特徴とする対話方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、ユーザと対話する対話エージェントの技術に関する。
【背景技術】
【0002】
スマートフォンやタブレット端末を用いて、ユーザと自然に対話する「対話エージェント」の技術が普及している。この技術によれば、仮想的なキャラクタエージェントがディスプレイに表示され、ユーザと音声によって対話する。
【0003】
対話エージェントは、予め登録された「対話シナリオ」に沿って、ユーザとの対話を進行させる。このとき、対話エージェントは、ユーザのプロファイル(年齢、性別、出身地等の属性)や、ユーザの発話から得られたユーザ固有情報を考慮して、対話シナリオを探索することが好ましい。対話エージェントは、ユーザ毎に、その状況や趣味趣向に応じて対話を成立させることができ、ユーザは、対話エージェントに対して親近感を持ちやすい。
【0004】
近年、対話システムは広く普及し、人間らしいキャラクタ性を持つ対話エージェントも登場している。例えば代表的には、女子高生というペルソナが与えられた「りんな」や、若年女性の見た目をした「Android Erica」がある。これらの対話エージェントは、発言や身振りが人間らしさを表現している。
【0005】
ここで、対話エージェントに“人間らしさ“を表現するための一要素として、対話相手の過去の発言を忘却する技術がある(例えば特許文献1参照)。この技術によれば、仮想コミュニティについて、嗜好の合うユーザを探し出すために、ユーザの代理人となる対話エージェント同士が交信する。各対話エージェントは、自らのユーザ固有情報を記憶データベースに記憶し、相手の対話エージェントからの参照頻度を計算する。そして、参照頻度が所定閾値以下となった単語について、記憶データベースから消去する。これによって、対話エージェントが自ら持つ対話相手の知識を、あえて忘却している。
【先行技術文献】
【特許文献】
【0006】
【文献】特開2002-229795号公報
【非特許文献】
【0007】
【文献】AIと機械学習プロダクト、「感情分析」、[online]、[令和3年2月25日検索]、インターネット<URL:https://cloud.google.com/natural-language/docs/analyzing-sentiment?hl=ja>
【文献】Jianming Wu et al. “Effects of objective feedback of facial expression recognition during video support chat”, MUM '17: Proceedings of the 16th International Conference on Mobile and Ubiquitous Multimedia.、[online]、[令和3年2月25日検索]、インターネット<URL:https://dl.acm.org/doi/10.1145/3152832.3152848>
【文献】Wang, Yanan, et al. "Multi-Attention Fusion Network for Video-based Emotion Recognition." 2019 International Conference on Multimodal Interaction. 2019.、[online]、[令和3年2月25日検索]、インターネット<URL:https://www.researchgate.net/publication/336632156_Multi-Attention_Fusion_Network_for_Video-based_Emotion_Recognition>
【文献】Empath、[online]、[令和3年2月25日検索]、インターネット<https://webempath.com/jpn/>
【発明の概要】
【発明が解決しようとする課題】
【0008】
人間同士の対話の中で、対話相手の発話状況の印象が強い発言は、記憶に残りやすいと考えられる。例えば「好きな歌手は誰ですか?」という質問に対して、対話相手が「Kana」と返答するとする。このとき、「私はKanaが本当に好きなんです!」と発言する場合と、「Kanaですかね」と発言する場合とでは、聞き手にとっては、前者の方が印象が強く、より記憶に残りやすい。
【0009】
これに対し、本願の発明者らは、対話相手の発話文の中で、印象が強い名詞ほど長く記憶し、印象が弱い名詞ほど早期に忘却するようにできれば、対話エージェントに“人間らしさ“を表現することができるのではないか、と考えた。勿論、前述した特許文献1に記載の技術によれば、対話相手の発話の印象に応じた忘却については全く考慮されていない。
【0010】
そこで、本発明は、ユーザから発話された名詞を忘却する対話プログラム、装置及び方法を提供することを目的とする。
【課題を解決するための手段】
【0011】
本発明によれば、ユーザの発話文から対話文を生成する対話制御手段としてコンピュータを機能させるプログラムにおいて、
ユーザの発話音声から発話文に変換する音声解析手段と、
疑問文に対するユーザの発話文に含まれた名詞を抽出する名詞抽出手段と、
抽出された当該名詞を、ユーザ固有情報として登録するメモリ手段と、
当該名詞が登録された際に、ユーザの発話文、顔画像及び発話音声のいずれか又はそれらの組み合わせから、ポジティブ、ネガティブ又はニュートラルの感情極性を推定する感情極性推定手段と、
ポジティブ又はネガティブほど高い感情スコアを算出し、ニュートラルほど低い感情スコアを算出するニュートラル感情算出手段と、
感情スコアが低いほど、メモリ手段における当該名詞の記憶期間を早めて忘却させる忘却制御手段と
してコンピュータを機能させることを特徴とする。
【0012】
本発明のプログラムにおける他の実施形態によれば、
感情極性推定手段は、
ユーザの発話文から感情極性を推定する発話感情解析手段と、
ユーザの顔画像から感情極性を推定する顔表情解析手段と、
ユーザの発話音声から感情極性を推定する音声感情解析手段と
のいずれか又はそれらの組み合わせを有する
ようにコンピュータを機能させることも好ましい。
【0014】
本発明のプログラムにおける他の実施形態によれば、
メモリ手段は、名詞毎に、発話時刻の降順に低くなる時間スコアを対応付けたものであり、
忘却制御手段は、名詞毎に、時間スコアと感情スコアとの和又は積となる記憶スコアが低いほど、メモリ手段における当該名詞の記憶期間を早めて忘却させる
ようにコンピュータを機能させることも好ましい。
【0015】
本発明のプログラムにおける他の実施形態によれば、
メモリ手段は、サイズN(>1)を設定し、記憶スコアの降順に並べた名詞をLRU(Least Recently Used)アルゴリズムによって除外していく
ようにコンピュータを機能させることも好ましい。
【0016】
本発明のプログラムにおける他の実施形態によれば、
メモリ手段におけるサイズNは、対話エージェントのキャラクタに応じて可変に設定される
ようにコンピュータを機能させることも好ましい。
【0017】
本発明のプログラムにおける他の実施形態によれば、
忘却制御手段は、メモリ手段に対して、記憶スコア順に、上位n個の名詞について「記憶」と判定し、下位n-1~N個の名詞について「忘却」と判定し、メモリに登録されていない名詞について「未聞」と判定する
ようにコンピュータを機能させることも好ましい。
【0018】
本発明のプログラムにおける他の実施形態によれば、
忘却制御手段は、メモリ手段に対して、記憶スコア順に、上位m%の名詞について「記憶」と判定し、下位1-m%の名詞について「忘却」と判定し、メモリに登録されていない名詞について「未聞」と判定する
ようにコンピュータを機能させることも好ましい。
【0019】
本発明のプログラムにおける他の実施形態によれば、
忘却制御手段は、メモリ手段に対して、全ての記憶スコアの平均値を算出し、記憶スコア順に、平均値以上の記憶スコアの名詞について「記憶」と判定し、平均値よりも低い記憶スコアの名詞について「忘却」と判定し、メモリに登録されていない名詞について「未聞」と判定する
ようにコンピュータを機能させることも好ましい。
【0020】
本発明のプログラムにおける他の実施形態によれば、
メモリ手段は、名詞と共に、当該名詞が含まれる発話文をユーザに発話させた疑問文とを対応付けており、
対話制御手段は、メモリ手段に登録されている名詞に対応する疑問文を、ユーザへ応答しない
ようにコンピュータを機能させることも好ましい。
【0021】
本発明によれば、ユーザの発話文から対話文を生成する対話制御手段を有する対話装置において、
ユーザの発話音声から発話文に変換する音声解析手段と、
疑問文に対するユーザの発話文に含まれた名詞を抽出する名詞抽出手段と、
抽出された当該名詞を、ユーザ固有情報として登録するメモリ手段と、
当該名詞が登録された際に、ユーザの発話文、顔画像及び発話音声のいずれか又はそれらの組み合わせから、ポジティブ、ネガティブ又はニュートラルの感情極性を推定する感情極性推定手段と、
ポジティブ又はネガティブほど高い感情スコアを算出し、ニュートラルほど低い感情スコアを算出するニュートラル感情算出手段と、
感情スコアが低いほど、メモリ手段における当該名詞の記憶期間を早めて忘却させる忘却制御手段と
を有することを特徴とする。
【0022】
本発明によれば、ユーザの発話文から対話文を生成する対話制御手段を有する装置の対話方法において、
装置は、
ユーザの発話音声から発話文に変換する第1のステップと、
疑問文に対するユーザの発話文に含まれた名詞を抽出する第2のステップと、
抽出された当該名詞を、ユーザ固有情報としてメモリに登録する第3のステップと、
当該名詞が登録された際に、ユーザの発話文、顔画像及び発話音声のいずれか又はそれらの組み合わせから、ポジティブ、ネガティブ又はニュートラルの感情極性を推定する第4のステップと、
ポジティブ又はネガティブほど高い感情スコアを算出し、ニュートラルほど低い感情スコアを算出する第5のステップと、
感情スコアが低いほど、メモリにおける当該名詞の記憶期間を早めて忘却させる第6のステップと
を実行することを特徴とする。
【発明の効果】
【0023】
本発明の対話プログラム、装置及び方法によれば、ユーザから発話された名詞を忘却することができる。
【図面の簡単な説明】
【0024】
図1】対話装置の実施形態を表す構成図である。
図2】本発明における対話装置の機能構成図である。
図3】本発明における対話制御部の対話シナリオを表す説明図である。
図4】本発明におけるメモリ部の記憶情報を表す説明図である。
図5】ニュートラル感情算出部のルールを表す説明図である。
図6】忘却制御部の記憶スコアを表す説明図である。
【発明を実施するための形態】
【0025】
以下、本発明の実施の形態について、図面を用いて詳細に説明する。
【0026】
図1は、対話装置の実施形態を表す構成図である。
【0027】
図1(a)によれば、ユーザは、スマートフォンやタブレットのような対話装置1と対話する。対話装置1には、本発明の対話プログラムが予めインストールされたものとして実装されている。
ユーザの発話音声は、対話装置1のマイクによって収音され、対話プログラムに入力される。対話プログラムは、ユーザの発話文に応じた対話文を生成し、対話装置1のスピーカから音声で出力する。勿論、ユーザとの間で、発話文及び対話文をテキストでやりとりするものであってもよい。
また、対話装置1は、カメラを搭載し、ユーザの顔を撮影するものであってもよい。撮影された顔画像は、対話プログラムへ入力される。
尚、対話装置1は、ディスプレイを搭載し、対話エージェントしてのキャラクタ(アバター)を表示するものであってもよい。
【0028】
図1(b)によれば、対話装置1は、ネットワークに接続されたサーバとして実装されている。端末2は、対話装置1とネットワークを介して通信すると共に、マイク、スピーカ、カメラ及びディスプレイを備えたユーザインタフェースとして機能する。
端末2は、マイクによって収音した発話音声を対話装置1へ送信し、対話装置1から応答された対話音声をスピーカから出力する。また、端末2は、ユーザの顔画像を、対話装置1へ送信するものであってもよい。
【0029】
図2は、本発明における対話装置の機能構成図である。
【0030】
本発明の対話装置1は、ユーザの発話文に含まれる名詞について、その発話時のユーザの感情極性に応じて忘却期間を制御するものである。これによって、ユーザから見て、対話エージェントに人間らしさを感じ、好感度を高めることができる。
【0031】
図2によれば、本発明の対話装置1は、メモリ部100と、対話制御部101と、音声解析部11と、名詞抽出部12と、感情極性推定部13と、ニュートラル感情算出部14と、忘却制御部15とを有する。これら機能構成部は、装置に搭載されたコンピュータを機能させるプログラムを実行することによって実現される。また、これら機能構成部の処理の流れは、対話に基づく忘却方法としても理解できる。
【0032】
[音声解析部11]
音声解析部11は、ユーザの発話音声から発話文に変換する。発話音声は、対話装置1に搭載されたマイクから収音したものであってもよいし、端末2から音声信号を受信したものであってもよい。
音声解析としては、具体的には、例えばGoogle(登録商標)のCloud Speech-to-Text(登録商標)や、Microsoft(登録商標)のSpeech to Text(登録商標)のような技術を適用することができる。
そして、音声解析部11は、検出した発話文を、対話制御部101へ出力する。また、発話文は、名詞抽出部12及び感情極性推定部13へも出力される。
【0033】
[対話制御部101]
対話制御部101は、既存の対話エージェントであり、音声解析部11から入力されたユーザの発話文に対して、「対話シナリオ」に基づいてユーザとの対話を進行させる。対話シナリオには、ユーザが発話するであろうと想定される発話文に、対話文が対応付けられた、交互のシーケンスによって構成されている。
対話制御部101は、ユーザ固有情報としての名詞を登録するメモリ部100を参照しながら、対話シナリオを辿っていく。
【0034】
図3は、本発明における対話制御部の対話シナリオを表す説明図である。
【0035】
図3によれば、対話制御部101は、以下の情報を対応付けたテーブルを持つ。
(1)疑問文(5W1H)
(2)疑問文に対してユーザが発話するであろう想定発話文
(3)想定発話文に対する対話文
(4)疑問文に対してユーザが発話した発話文に含まれる名詞の忘却有無
尚、実施形態としては、メモリ部100に登録される名詞は、疑問文に対してユーザの発話文に含まれるものについてのみとする。
【0036】
図3のテーブルによれば、対話エージェントは、疑問文「好きな歌手って誰?」に対して、ユーザが「HAMADAですね!」と発話をした場合、その対話文「いい曲多いよね」を出力する。
【0037】
忘却有無は、メモリ部100に、その疑問文に対するユーザ固有情報が記憶されているか否かを表す。
「○」:その疑問文に対するユーザの発話文に含まれた名詞は、「記憶」されている。
「×」:その疑問文に対するユーザの発話文に含まれた名詞は、一度、メモリ部100に記憶されたが、その後、「忘却」されている。
「△」:その疑問文自体が、「未聞」である。
【0038】
対話制御部101は、音声解析部11から入力されたユーザの発話文に対して、各名詞の記憶、忘却、未聞を認識した上で、対話シナリオに沿ってユーザとの対話を進行させる。
「記憶」となる名詞に関する疑問文は、対話文として応答しない。
「忘却」となる名詞に関する疑問文は、例えば「前に一度聞いたような気がするけど、・・・」のような対話文と共に、ユーザに質問する。
「未聞」となる名詞については、対話シナリオに沿って対話する。
【0039】
対話制御部101は、ユーザへ応答すべき対話文を、対話音声に変換する音声合成機能も含む。対話音声は、対話装置1のスピーカから出力されるか、又は、対話音声の信号を端末2へ送信する。
【0040】
[名詞抽出部12]
名詞抽出部12は、疑問文に対するユーザの発話文に含まれた名詞を抽出する。
疑問文は、対話シナリオに沿って対話エージェントから質問されたものである。例えば「どんな食べ物が好き?」に対して、ユーザの発話文「チャーハンが好きですよ。」から、名詞「チャーハン」を抽出する。
名詞抽出部12は、具体的には、ユーザの発話文を、係り受け解析器で解析し、述語に係る名詞を抽出する。日本語の係り受け解析器としては、例えばSVM(Support Vector Machines)に基づくCaboCha(登録商標)がある。
名詞抽出部12によって抽出された名詞は、メモリ部100へ出力される。
【0041】
[メモリ部100]
メモリ部100は、名詞抽出部12によって抽出された「名詞」を、ユーザ毎の固有情報として登録する。
【0042】
図4は、本発明におけるメモリ部の記憶情報を表す説明図である。
【0043】
図4によれば、メモリ部100は、名詞毎に、発話時刻の降順に低くなる「時間スコア」を対応付けたものである。
人間同士の対話の中で、対話相手から最近に発話された名詞ほど印象が強く、記憶に残りやすいと考えられる。即ち、メモリ部100は、ユーザがその名詞を忘却するまで記憶するべく登録するものである。そのために、名詞と共に、「発話時刻」を記録し、当該名詞が発話されてからの時間が短いほど、高い時間スコアが付与される。一方で、当該名詞が発話されてからの時間が長くなるほど、低い時間スコアが付与される。
【0044】
ここで、メモリ部100は、疑問文に対するユーザの発話文に含まれる名詞のみを登録する。そのような発話文の名詞は、ユーザ固有情報であるといえる。即ち、疑問文以外のユーザの発話文に含まれる名詞は対象としない。図4によれば、メモリ部100は、名詞と共に、対話番号(当該名詞が含まれる発話文をユーザに発話させた疑問文)が対応付けられている。
尚、メモリ部100は、既に記憶している名詞と、その後のユーザの発話文に含まれる名詞とが一致した場合、当該名詞の発話時刻を更新し、時間スコアも更新される。
【0045】
また、メモリ部100は、名詞と共に、当該名詞が含まれる発話文をユーザに発話させた疑問文とを対応付けている。これによって、対話制御部101は、メモリ部100に登録されている記憶中の名詞に対応する疑問文を、ユーザへ応答しないように制御することができる。
【0046】
メモリ部100は、サイズN(>1)を設定し、新しい名詞が登録される毎に、時間スコアの降順に並べた名詞を、LRU(Least Recently Used)によって除外していく。LRUは、新規のデータが入力された場合、参照時刻(発話時刻)が最も遅いデータを破棄するアルゴリズムである。
サイズNは、パラメータとしてユーザやオペレータよって設定可能なものである。Nが小さいほど、名詞の登録数が減り、対話エージェントとしての記憶力は低くなる。一方で、Nが大きいほど、名詞の登録数が増え、対話エージェントとしての記憶力は高くなる。
【0047】
図4によれば、N=5として、時間スコアの降順に、名詞が並べられている。
新たな疑問文としての対話番号3「どんな食べ物が好き?」に対して、ユーザが「チャーハンが好きだよ」と発話している。これは、最新の発話時刻”2021/1/6 23:52:24”であるので、時間スコア=5が付与される。
一方で、発話時刻が最も遅い対話番号8の名詞「虹色」は、サイズNを超える。このように、時間スコア=0となった名詞は、「忘却」されたものとして、メモリ部100から除外される。
【0048】
他の実施形態として、メモリ部100は、サイズNを、対話エージェントのキャラクタに応じて可変に設定するものであってもよい。例えば知的なキャラクタであればNの数値を大きくし、逆に子供っぽい又は少しお馬鹿なキャラクタであればNの数値を小さくしてもよい。
【0049】
[感情極性推定部13]
感情極性推定部13は、当該名詞が登録された際に、ユーザの発話文、顔画像及び発話音声のいずれか又はそれらの組み合わせから、感情極性を推定する。「感情極性」は、「ポジティブ」「ネガティブ」又は「ニュートラル」のいずれかとして推定される。
また、感情極性推定部13は、以下の解析部のいずれか又はそれらの組み合わせによって、感情極性を推定するものであってもよい。
ユーザの発話文から感情極性を推定する<発話感情解析部131>
ユーザの顔画像から感情極性を推定する<顔表情解析部132>
ユーザの発話音声から感情極性を推定する<音声感情解析部133>
そして、感情極性推定部13は、推定した感情極性を、ニュートラル感情算出部14へ出力する。
【0050】
<発話感情解析部131>
発話感情解析部131は、音声解析部11からユーザの発話文(テキスト)を入力し、学習エンジンを用いて感情極性を推定する。具体的には、Support Vector Machine等の判定器を使用する方法や、Google(登録商標)が提供しているCloud Natural Language APIを使用する方法がある(例えば非特許文献1参照)。
例えば、疑問文「好きな歌手って誰?」に対して、ユーザの発話文が「Kanaがとても大好きなんです!」とポジティブな場合と、「Kanaですかね」とニュートラルな場合とがある。前者の場合、比較的印象が強く、記憶に残りやすいと考えられる。一方で、後者の場合、比較的印象が弱く、記憶に残りにくいと考えられる。
【0051】
<顔表情解析部132>
顔表情解析部132は、カメラから、ユーザの顔が撮影された画像(又は映像)を入力し、学習エンジンを用いて感情極性を推定する。ここでは、発話文から名詞が抽出されたユーザの発話期間だけ、その画像又は映像を切り取ることが好ましい。
ユーザの顔画像から、3つの感情極性(ポジティブ/ネガティブ/ニュートラル)を推定する既存技術がある(例えば非特許文献2参照)。また、ユーザの顔画像から、7つの感情極性(喜び、悲しみ、怒り、軽蔑、嫌悪、恐れ、驚き)を判定する既存技術もある(例えば非特許文献3参照)。この場合、各感情極性を、ポジティブ/ネガティブ/ニュートラルのいずれかに振り分ける。
カメラから映像が入力された場合、各フレーム(静止画)について、ユーザの顔画像から感情極性を推定し、最も多く出現した感情極性に決定するものであってもよい。
例えば、ユーザが「笑顔」で「Kanaがとても大好きなんです!」と発話する場合と、「無表情」で「Kanaがとても大好きなんです」と発話する場合とでは、前者の方が印象が強く、比較的記憶に残りやすいと考えられる。
【0052】
<音声感情解析部133>
音声感情解析部133は、マイクからユーザの発話音声を入力し、学習エンジンを用いて感情極性を推定する。
音声感情解析部133としては、例えば音声感情解析器のAPIを用いて、ユーザの音声から「平常、喜び、怒り、悲しみ」の4値に分類する技術がある(例えば非特許文献4参照)。この技術によれば、喜びの感情をポジティブ、怒り及び悲しみの感情をネガティブ、 平常をニュートラルと変換してもよい。
【0053】
[ニュートラル感情算出部14]
ニュートラル感情算出部14は、ニュートラルほど低い「感情スコア」を算出する。また、感情スコアは、ポジティブ又はネガティブほど高く算出される。
【0054】
図5は、ニュートラル感情算出部のルールを表す説明図である。
【0055】
図5によれば、以下のようにルールが規定されている。
(ルール1)3要素が全てポジティブ又はネガティブ->加点+9
(ルール2)2要素が全てポジティブ又はネガティブで、残り1要素がニュートラル->加点+6
(ルール3)2要素が全てポジティブ又はネガティブで、残り1要素がネガティブ又はポジティブ(対極関係)->加点+3
(ルール4)1要素がポジティブ又はネガティブで、残り2要素がニュートラル->加点+3
(ルール5)1要素がポジティブで、1要素がネガティブで、1要素がニュートラル->加点+2
(ルール6)3要素が全てニュートラル->加点0
【0056】
図5のルールによれば、3要素が全てポジティブ又はネガティブである場合、最も印象が強く、記憶に残りやすいと判定し、加点を最も高くする。
一方で、要素が全てニュートラルである場合、最も印象が弱く、記憶に残りにくいと判定し、加点を0とする。
【0057】
そして、ニュートラル感情算出部14は、感情極性推定部13の感情極性から、「感情スコア」を算出する。
図5によれば、以下のように感情スコアが算出される。
対話番号8におけるユーザの発話文「チャーハン本当大好きです!」は、発話文感情極性「ポジティブ」、顔表情感情極性「ポジティブ」、音声感情極性「ニュートラル」として、ルール2=+6点となる。
対話番号4におけるユーザの発話文「パレビアン何度も何度もみてます!」は、発話文感情極性「ポジティブ」、顔表情感情極性「ポジティブ」、音声感情極性「ポジティブ」として、ルール1=+9点となる。
対話番号6におけるユーザの発話文「オーストラリア行きました」は、発話文感情極性「ニュートラル」、顔表情感情極性「ネガティブ」、音声感情極性「ネガティブ」として、ルール2=+6点となる。
対話番号7におけるユーザの発話文「猫です」は、発話文感情極性「ニュートラル」、顔表情感情極性「ニュートラル」、音声感情極性「ニュートラル」として、ルール6=0点となる。
対話番号2におけるユーザの発話文「山登り大好きですよ!」は、発話文感情極性「ポジティブ」、顔表情感情極性「ニュートラル」、音声感情極性「ネガティブ」として、ルール5=+2点となる。
【0058】
[忘却制御部15]
忘却制御部15は、感情スコアが低いほど、メモリ部100における当該名詞の記憶期間を早めて忘却させる。
【0059】
図6は、忘却制御部の記憶スコアを表す説明図である。
【0060】
図6によれば、時間スコアと感情スコアとの和となる記憶スコアが算出されている。勿論、和ではなく、積であってもよい。忘却制御部15は、名詞毎に、記憶スコアが低いほど、メモリ部100における当該名詞の記憶期間を早めて忘却させる。
【0061】
また、他の実施形態として、忘却制御部15は、メモリ部100を、以下のように制御するものであってもよい。
(1)忘却制御部15は、メモリ部100に対して、記憶スコア順に、以下のように判定する。
上位n個の名詞については 「記憶」
下位n-1~N個の名詞については 「忘却」
メモリに登録されていない名詞については 「未聞」
nについては、ユーザ又はオペレータによって設定可能であったり、対話エージェントのキャラクタによって可変されるものであってもよい。例えばn=5に設定したものであってもよい。
【0062】
(2)忘却制御部15は、メモリ部100に対して、記憶スコア順に、以下のように判定する。
上位m%の名詞については 「記憶」
下位1-m%の名詞については 「忘却」
メモリに登録されていない名詞については 「未聞」
mについても、ユーザ又はオペレータによって設定可能であったり、対話エージェントのキャラクタによって可変されるものであってもよい。例えばm=80%に設定したものであってもよい。
【0063】
(3)忘却制御部15は、メモリ部100に対して、全ての記憶スコアの平均値を算出し、記憶スコア順に、以下のように判定する。
平均値以上の記憶スコアの名詞については 「記憶」
平均値よりも低い記憶スコアの名詞については「忘却」
メモリに登録されていない名詞については 「未聞」
図6によれば、全ての記憶スコアの平均値は、7.6点(=(11+13+9+3+2)/5)であるために、11点、13点、9点の記憶スコアを持つ対話番号8、4、6を「記憶」とし、対話番号2、7を「忘却」とする。
【0064】
以上、詳細に説明したように、本発明の対話プログラム、装置及び方法によれば、ユーザから発話された名詞を忘却することができる。
【0065】
人間同士の対話によれば、対話相手の発話文について、発話状況の印象が強いほど、その発話文に含まれる名詞が記憶に残りやすい。その点を考慮して、本発明によれば、ユーザにおける発話時の発話文、顔表情、発話音声に基づく感情極性に応じて、その発話文に含まれる名詞について記憶期間における忘却を制御することができる。その名詞が記憶されている限り、その名詞に基づく疑問文をユーザに問わないようにする。
対話エージェントは、ユーザがポジティブ又はネガティブに発話した場合、印象が強いために、その名詞を長く記憶するように制御する。一方で、ユーザがニュートラルに発話した場合、印象が弱いために、その名詞を早期に忘却するように制御する。
このように、対話エージェントは、人間らしい記憶・忘却によって、対話シナリオの流れが制御され、ユーザの対話意欲が向上すると考えられる。
【0066】
前述した本発明の種々の実施形態について、本発明の技術思想及び見地の範囲の種々の変更、修正及び省略は、当業者によれば容易に行うことができる。前述の説明はあくまで例であって、何ら制約しようとするものではない。本発明は、特許請求の範囲及びその均等物として限定するものにのみ制約される。
【符号の説明】
【0067】
1 対話装置
11 音声解析部
12 名詞抽出部
13 感情極性推定部
131 発話感情解析部
132 顔表情解析部
133 音声感情解析部
14 ニュートラル感情算出部
15 忘却制御部
100 メモリ部
101 対話制御部
2 端末
図1
図2
図3
図4
図5
図6