IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ トヨタ自動車株式会社の特許一覧

特開2024-70313対話システム、発話生成方法、およびプログラム
<>
  • 特開-対話システム、発話生成方法、およびプログラム 図1
  • 特開-対話システム、発話生成方法、およびプログラム 図2
  • 特開-対話システム、発話生成方法、およびプログラム 図3
  • 特開-対話システム、発話生成方法、およびプログラム 図4
  • 特開-対話システム、発話生成方法、およびプログラム 図5
  • 特開-対話システム、発話生成方法、およびプログラム 図6
  • 特開-対話システム、発話生成方法、およびプログラム 図7
  • 特開-対話システム、発話生成方法、およびプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024070313
(43)【公開日】2024-05-23
(54)【発明の名称】対話システム、発話生成方法、およびプログラム
(51)【国際特許分類】
   G10L 15/22 20060101AFI20240516BHJP
   G10L 15/00 20130101ALI20240516BHJP
【FI】
G10L15/22 300Z
G10L15/00 200J
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2022180708
(22)【出願日】2022-11-11
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (1)公開日 2021年11月12日 開催場所 日本電信電話株式会社 NTT R&D FORUM-Road to IOWN 2021 グループ会社内覧会(https://www.rd.ntt/forum/2021/exhibits.html) (2)公開日 2021年11月16日 開催場所 日本電信電話株式会社 NTT R&D FORUM-Road to IOWN 2021 動画公開を含むオンライン展示 (3)公開日 2021年11月25日 公開場所 機械振興会館/オンライン(ハイブリッド) 電子情報通信学会クラウドネットワークロボット(CNR)研究会 「IoTワークショップ」招待講演(公知日:2021年11月25日) https://ken.ieice.org/ken/paper/20211125nCgn/ (4)説明日 2021年12月5日 説明場所 日本科学未来館(東京都江東区青海2-3-6) (5)ウェブサイト掲載日 2021年12月5日 ウェブサイト 日本科学未来館招待講演発表動画YouTube (6)公開日 2022年1月26日 公開場所 株式会社ハイテクノロジー推進研究所・マルチメディア推進フォーラム PART875「人に優しいヒューマンインタフェース」 http://www.ahri.co.jp/business/forum/backnumber/2022.pdf (7)公開日 2022年2月16日 公開場所 第29回ステアラボ人工知能セミナー https://stair.connpass.com/event/238186/ (8)公開日 2022年3月5日 公開場所 日本科学未来館招待講演 https://www.miraikan.jst.go.jp/events/202203052333.html (9)公開日 2022年5月20日(概要公開) 説明場所 パシフィコ横浜(神奈川県横浜市西区みなとみらい1丁目1-1) 自動車技術会2022年春季大会 現地会場(パシフィコ横浜)とオンラインとのハイブリッド開催
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (10)公開日 2022年5月25日(論文発表) 説明場所 パシフィコ横浜(神奈川県横浜市西区みなとみらい1丁目1-1) 自動車技術会2022年春季大会 現地会場(パシフィコ横浜)とオンラインとのハイブリッド開催 (11)説明日 2022年5月26日(口頭発表) 説明場所 パシフィコ横浜(神奈川県横浜市西区みなとみらい1丁目1-1) 自動車技術会2022年春季大会 現地会場(パシフィコ横浜)とオンラインとのハイブリッド開催 (12)ウェブサイト掲載日 2022年5月30日 ウェブサイト NTTニュースリリース https://group.ntt/jp/newsrelease/2022/05/30/220530b.html (13)公開日 2022年5月30日 公開場所 在京メディア各社向け内覧会 〒100-8116東京都千代田区大手町一丁目5番1号 記者会見室:大手町ファーストスクエアビルイーストタワー9F (14)公開日 2022年6月1日 公開場所 在阪メディア各社向け内覧会 〒534-0024大阪府大阪市都島区東野田町4丁目15クイントブリッジ2階 (15)公開日 2022年6月2日 公開場所 NTTコミュニケーション科学基礎研究所オープンハウス2022 YouTube公開デモ動画 (16)公開日 2022年6月2日 公開場所 NTTコミュニケーション科学基礎研究所オープンハウス2022 YouTube公開講演動画 (17)ウェブサイト掲載日 2022年5月30日 ウェブサイト BUSINESS NETWORKウェブ記事掲載 https://businessnetwork.jp/article/9164/ (18)ウェブサイト掲載日 2022年5月30日 ウェブサイト NHKウェブ記事(NHK www3.nhk.or.jp) https://www3.nhk.or.jp/news/html/20220530/k10013650351000.html (19)放送日 2022年5月30日 放送番組 テレビ東京・BSテレ東 ワールドビジネスサテライト
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (20)放送日 2022年5月30日 放送番組 フジテレビ Live news α (21)発行日 2022年5月31日 刊行物 日刊工業新聞10面 (22)放送日 2022年5月30日 放送番組 テレビ朝日 グッド!モーニング (23)放送日 2022年5月31日 放送番組 NHK総合テレビ NHK NEWS おはよう日本 (24)放送日 2022年5月31日 放送番組 フジテレビ めざましテレビ (25)ウェブサイト掲載日 2022年5月31日 ウェブサイト テレビ朝日 ウェブ記事掲載(Abemaニュース) https://www.youtube.com/watch?v=qW26bTzo-Lc (26)ウェブサイト掲載日 2022年5月31日 ウェブサイト 日本経済新聞 ウェブ記事掲載(www.nikkei.com) https://www.nikkei.com/article/DGXZQOUC311JI0R30C22A5000000/ (27)放送日 2022年6月1日 放送番組 テレビ大阪やさしいニュース (28)ウェブサイト掲載日 2022年6月1日 ウェブサイト テレビ大阪ニュースYouTube https://www.youtube.com/watch?v=KPqcNxtffUU (29)発行日 2022年6月3日 刊行物 日経MJ(流通新聞)2面 (30)発行日 2022年6月6日 刊行物 日経産業新聞5面 (31)発行日 2022年6月6日 刊行物 電経新聞2面 (32)発行日 2022年6月6日 刊行物 電経新聞4面 (33)発行日 2022年6月6日 刊行物 通信興行新聞1面 (34)発行日 2022年6月10日 刊行物 科学新聞1面 (35)公開日 2022年4月13日(概要公開日) 説明場所 国立京都国際会館 (〒606-0001京都府京都市左京区岩倉大鷺町422) 2022年度人工知能学会全国大会(第36回) 現地会場(国立京都国際会館)とオンラインとのハイブリッド開催
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (36)公開日 2022年5月27日(論文公開日) 説明場所 国立京都国際会館 (〒606-0001京都府京都市左京区岩倉大鷺町422) 2022年度人工知能学会全国大会(第36回) 現地会場(国立京都国際会館)とオンラインとのハイブリッド開催 (37)公開日 2022年6月15日(口頭発表) 公開場所 国立京都国際会館 (〒606-0001京都府京都市左京区岩倉大鷺町422) 2022年度人工知能学会全国大会(第36回) 現地会場(国立京都国際会館)とオンラインとのハイブリッド開催 (38)発行日 2022年7月8日 刊行物 NTT東日本グループ News Release (39)説明日 2022年7月12日 説明場所 中泊町立中里小学校体育館 (青森県北津軽郡中泊町大字中里字亀山251-1) (40)放送日 2022年7月12日 放送番組 ABA青森朝日放送スーパーJチャンネルABA (41)ウェブサイト掲載日 2022年7月12日 ウェブサイト ABA青森朝日放送ウェブ記事(JチャンネルABAニュース) https://www.aba-net.com/news/news-49977.html (42)公開日 2022年9月4日(講演日) 公開場所 日本科学未来館7階 Zoomウェビナーとのハイブリッド方式 https://www.commu-ai.org/activity/20220904-2022fysymposium-announce.html
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】000003207
【氏名又は名称】トヨタ自動車株式会社
(74)【代理人】
【識別番号】100121706
【弁理士】
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【弁理士】
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【弁理士】
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】杉山 弘晃
(72)【発明者】
【氏名】古賀 光
(72)【発明者】
【氏名】西島 敏文
(57)【要約】
【課題】視認可能な対象が時々刻々と入れ替わっていく状況においても、ユーザとの雑談対話を好適に行うための発話を生成する。
【解決手段】対話システム300は、移動体と共に移動しているユーザによる発話であるユーザ発話に対する発話であるシステム発話を生成する対話システムであって、ユーザ発話を取得するユーザ発話取得部310と、移動体から撮影した画像である周囲画像を取得する周囲画像取得部320と、ユーザと対話システムによる対話の直前の文脈に基づく発話である文脈発話候補を生成する文脈発話候補生成部340と、ユーザと対話システムによる対話の直前の文脈に基づかずに周囲画像の内容に基づく発話である印象発話候補を生成する印象発話候補生成部350と、予め定めた規則に従って、文脈発話候補と印象発話候補の何れかをシステム発話として選択するシステム発話決定部360と、を有する。
【選択図】図1
【特許請求の範囲】
【請求項1】
移動体と共に移動しているユーザによる発話であるユーザ発話に対する発話であるシステム発話を生成する対話システムであって、
前記ユーザ発話を取得するユーザ発話取得部と、
前記移動体から撮影した画像である周囲画像を取得する周囲画像取得部と、
前記ユーザと前記対話システムによる対話の直前の文脈に基づく発話である文脈発話候補を生成する文脈発話候補生成部と、
前記ユーザと前記対話システムによる対話の直前の文脈に基づかずに前記周囲画像の内容に基づく発話である印象発話候補を生成する印象発話候補生成部と、
予め定めた規則に従って、前記文脈発話候補と前記印象発話候補の何れかを前記システム発話として選択するシステム発話決定部と、
を有する対話システム。
【請求項2】
請求項1に記載の対話システムであって、
前記印象発話候補生成部は、所定の時間間隔の各前記周囲画像に基づいて前記印象発話候補を生成し、
前記文脈発話候補生成部は、前記ユーザ発話取得部で前記ユーザ発話が取得されたのを契機に前記文脈発話候補を生成する、
対話システム。
【請求項3】
請求項1に記載の対話システムであって、
前記システム発話決定部は、
前記対話システムが1つ前のシステム発話を出力してから所定時間T1以内に前記ユーザ発話が行われた場合には、前記文脈発話候補を前記システム発話として選択し、
前記の場合以外である場合には、前記印象発話候補を前記システム発話として選択する、
対話システム。
【請求項4】
請求項1に記載の対話システムであって、
前記印象発話候補生成部は、前記印象発話候補の話題としての強さを表す指標値である話題強度の推定も行い、
前記システム発話決定部は、前記話題強度が所定の閾値より大きいか以上である場合には前記印象発話候補をシステム発話として選択し、前記の場合以外である場合には前記文脈発話候補をシステム発話として選択する、
対話システム。
【請求項5】
請求項1に記載の対話システムであって、
前記文脈発話候補生成部は、前記文脈発話候補の対話の継続性の指標値である話題継続度の推定も行い、
前記印象発話候補生成部は、前記印象発話候補の話題としての強さを表す指標値である話題強度の推定も行い、
前記システム発話決定部は、前記話題継続度が大きいほど前記文脈発話候補が前記システム発話として選択される優先度が高く、かつ、前記話題強度が大きいほど前記印象発話候補が前記システム発話として選択される優先度が高い、という選択基準に従って、前記文脈発話候補と前記印象発話候補の何れかを前記システム発話として選択する、
対話システム。
【請求項6】
請求項1に記載の対話システムであって、
前記文脈発話候補生成部は、前記文脈発話候補の対話の継続性の指標値である話題継続度の推定も行い、
前記印象発話候補生成部は、前記印象発話候補の話題としての強さを表す指標値である話題強度の推定も行い、
前記システム発話決定部は、
前記話題継続度が小さいほど値が大きくかつ前記話題強度が大きいほど値が大きい第1指標値が所定の第1閾値より大きい場合には、前記印象発話候補を前記システム発話として選択し、前記第1指標値が前記第1閾値より小さい場合には、前記文脈発話候補を前記システム発話として選択する、
または、
前記話題継続度が大きいほど値が大きくかつ前記話題強度が小さいほど値が大きい第2指標値が所定の第2閾値より大きい場合には、前記文脈発話候補を前記システム発話として選択し、前記第2指標値が前記第2閾値より小さい場合には、前記印象発話候補を前記システム発話として選択する、
対話システム。
【請求項7】
請求項1に記載の対話システムであって、
前記文脈発話候補生成部は、前記文脈発話候補の対話の継続性の指標値である話題継続度の推定も行い、
前記印象発話候補生成部は、前記印象発話候補の話題としての強さを表す指標値である話題強度の推定も行い、
前記システム発話決定部は、
前記話題継続度が小さいほど値が大きくかつ前記話題強度が大きいほど値が大きい第1指標値が大きいほど前記印象発話候補が前記システム発話として選択される確率が高く、前記第1指標値が小さいほど前記文脈発話候補が前記システム発話として選択される確率が高い、重み付きランダムサンプリングによって、前記文脈発話候補と前記印象発話候補の何れかを前記システム発話として選択する、
または、
前記話題継続度が大きいほど値が大きくかつ前記話題強度が小さいほど値が大きい第2指標値が大きいほど前記文脈発話候補が前記システム発話として選択される確率が高く、前記第2指標値が小さいほど前記印象発話候補が前記システム発話として選択される確率が高い、重み付きランダムサンプリングによって、前記文脈発話候補と前記印象発話候補の何れかを前記システム発話として選択する、
対話システム。
【請求項8】
請求項1、4、5、6、7のいずれかに記載の対話システムであって、
前記印象発話候補生成部は、話題強度推定部をさらに有し、
前記話題強度推定部には、複数個の候補連続画像と、前記候補連続画像それぞれに対応する複数個の発話テキストと、が予め記憶されており、
前記話題強度推定部は、
予め記憶された複数個の前記候補連続画像のうちの、前記周囲画像を含む連続画像である周囲連続画像と類似する候補連続画像を特定し、
特定した前記候補連続画像に対応して予め記憶された複数個の前記発話テキストのうちの、前記印象発話候補との類似度が所定の閾値より大きいか以上である発話テキストの個数、
または、
特定した前記候補連続画像に対応して予め記憶された複数個の前記発話テキストのうちの、前記印象発話候補との類似度が所定の閾値より大きいか以上である発話テキストの頻度に前記類似度が大きいほど大きな重み値を与えて加算した重み付け和、
を前記印象発話候補の話題強度として取得する、
対話システム。
【請求項9】
請求項1に記載の対話システムであって、
前記システム発話決定部は、
前記印象発話候補を選択した場合であって、前記印象発話候補が基づく前記周囲画像が取得された時刻と現在の時刻との差分が所定の閾値より大きいか以上である場合には、時間が経過したことを表す修飾表現を前記印象発話候補に付したものを前記システム発話とする、
対話システム。
【請求項10】
請求項1に記載の対話システムであって、
前記文脈発話候補生成部は、前記ユーザ発話と前記周囲画像に基づいて、または、前記周囲画像には基づかずに前記ユーザ発話に基づいて、前記文脈発話候補を生成し、
前記印象発話候補生成部は、前記ユーザ発話には基づかずに前記周囲画像に基づいて、前記印象発話候補を生成する、
対話システム。
【請求項11】
請求項1に記載の対話システムであって、
前記周囲画像取得部が取得した周囲画像を所定時間記憶しておく周囲画像記憶部をさらに有し、
前記文脈発話候補生成部は、前記周囲画像記憶部に記憶された過去の周囲画像を少なくとも参照して前記文脈発話候補を生成する、
対話システム。
【請求項12】
移動体と共に移動しているユーザによる発話であるユーザ発話に対する発話であるシステム発話を生成する対話システムが行う発話生成方法であって、
前記ユーザ発話を取得するユーザ発話取得ステップと、
前記移動体から撮影した画像である周囲画像を取得する周囲画像取得ステップと、
前記ユーザと前記対話システムによる対話の直前の文脈に基づく発話である文脈発話候補を生成する文脈発話候補生成ステップと、
前記ユーザと前記対話システムによる対話の直前の文脈に基づかずに前記周囲画像の内容に基づく発話である印象発話候補を生成する印象発話候補生成ステップと、
予め定めた規則に従って、前記文脈発話候補と前記印象発話候補の何れかを前記システム発話として選択するシステム発話決定ステップと、
を有する発話生成方法。
【請求項13】
請求項1から7及び9から11の何れかに記載の対話システムの各部としてコンピュータを機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、例えば自動車などで移動している人と対話する対話システムによる発話を生成する技術に関する。
【背景技術】
【0002】
特許文献1には、高齢者と好適なコミュニケーションをする雑談対話システムが記載されている。特許文献1の雑談対話システムは、高齢者であるユーザの周囲をカメラで撮影して得た画像に対して物体検知を行うことで、ユーザの周囲にある物体が何であるのかを特定して、特定した物体の情報に基づいて発話をする。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2008-158697号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1の対話システムでは、例えばユーザとロボットが同じ自動車に乗って移動しながら雑談対話をすることを想定したものではない。例えば、複数の人が同じ自動車に乗って移動しながら雑談対話をする場合であれば、当該複数の人が共に視認可能な物や人など(以下、「対象」という。)が時々刻々と入れ替わっていき、時々刻々と入れ替わっていく視認可能な対象に応じた発話を当該複数の人が行うことで、雑談対話が進んでいく。しかしながら、特許文献1の対話システムでは、このように視認可能な対象が時々刻々と入れ替わっていく状況でロボットが雑談対話における発話をすることは想定されていない。
【0005】
本発明は、例えばユーザが自動車などで移動していることなどにより、視認可能な対象が時々刻々と入れ替わっていく状況においても、ユーザとの雑談対話を好適に行うための発話を生成する技術を提供することを目的とする。
【課題を解決するための手段】
【0006】
この発明の一態様による対話システムは、移動体と共に移動しているユーザによる発話であるユーザ発話に対する発話であるシステム発話を生成する対話システムであって、ユーザ発話を取得するユーザ発話取得部と、移動体から撮影した画像である周囲画像を取得する周囲画像取得部と、ユーザと対話システムによる対話の直前の文脈に基づく発話である文脈発話候補を生成する文脈発話候補生成部と、ユーザと対話システムによる対話の直前の文脈に基づかずに周囲画像の内容に基づく発話である印象発話候補を生成する印象発話候補生成部と、予め定めた規則に従って、文脈発話候補と印象発話候補の何れかをシステム発話として選択するシステム発話決定部と、を有する。
【発明の効果】
【0007】
本発明によれば、視認可能な対象が時々刻々と入れ替わっていく状況においても、ユーザとの雑談対話を好適に行うための発話を生成することができる。
【図面の簡単な説明】
【0008】
図1図1は、対話システムの機能構成を例示したブロック図である。
図2図2は、対話システムが周囲画像を取得する処理を示す流れ図である。
図3図3は、対話システムが行う発話生成方法の処理を示す流れ図である。
図4図4は、印象発話候補生成部の機能構成を例示したブロック図である。
図5図5は、印象発話候補生成部が行う処理を示す流れ図である。
図6図6は、文脈発話候補生成部の機能構成を例示したブロック図である。
図7図7は、文脈発話候補生成部が行う処理を示す流れ図である。
図8図8は、対話システム及び発話生成装置を実現するコンピュータの機能構成の一例を示す図である。
【発明を実施するための形態】
【0009】
<第1実施形態>
第1実施形態では、対話システムが発話する直前までの対話の文脈に基づく発話候補と、対話システムが発話する直前までの対話の文脈に基づかずに周囲の風景に基づく発話候補と、の2種類の発話候補の何れかを発話することで、例えばユーザが自動車などで移動していることなどにより、視認可能な対象が時々刻々と入れ替わっていく状況において、ユーザとの雑談対話を好適に行う対話システム及び当該対話システムの発話生成方法について説明する。
【0010】
[対話システム及び対話方法]
第1実施形態の対話システム300は、例えば図1に示すように、ユーザ発話取得部310、周囲画像取得部320、周囲画像記憶部330、文脈発話候補生成部340、印象発話候補生成部350、システム発話決定部360、システム発話出力部370を含む。ただし、後述するように、図1に破線で示したユーザ発話取得部310、周囲画像取得部320、システム発話出力部370が対話システム300に含まれるのは必須ではない。
【0011】
対話システム300が行う発話生成方法は、移動体と共に移動しているユーザによる発話と、移動体と共に移動しているユーザの周囲の風景と、に基づいて、対話システム300が行う発話を生成して出力するものである。以下では、ユーザが発声した音声に含まれる発話を「ユーザ発話」とよび、対話システム300が生成して出力する発話を「システム発話」とよぶ。第1実施形態の発話生成方法は、対話システム300が図3に示すステップS310、S340、S350、S360、S370の処理を行うことにより例えば実現される。ただし、後述するように、第1実施形態の発話生成方法に図3に破線で示したステップS310とS370が含まれるのは必須ではない。また、発話生成方法を実現するために必要な情報を取得しておく処理、具体的には、ユーザが現在いる位置から見える風景の画像を取得する処理と、ユーザが過去にいた位置から見える風景の画像を記憶しておく処理は、対話システム300が図2に示すステップS320、S330を行うことにより例えば実現される。
【0012】
まず、ユーザが現在いる位置から見える風景の画像を取得する処理と、ユーザが過去にいた位置から見える風景の画像を記憶しておく処理と、に関連する各構成部と当該各構成部の処理について説明する。
【0013】
[周囲画像取得部320]
周囲画像取得部320は、所定の時間間隔Taの各時刻において、ユーザの周囲の風景の画像である周囲画像を取得する(ステップS320)。周囲画像は、当該周囲画像を取得する時点でのユーザの位置から見える風景の画像である。上述したようにユーザは移動体と共に移動しているので、周囲画像は、ユーザと共に移動する移動体の周囲の風景の画像であり、例えば、ユーザと共に移動する移動体から撮影した画像である。周囲画像取得部320としては、ユーザと共に移動する移動体に備えられた周知のカメラが用いられればよく、例えば、一般的な動画におけるフレーム間隔Taで画像を撮影するカメラが用いられればよい。周囲画像取得部320によって取得された各時刻の周囲画像は、周囲画像記憶部330に対して出力される。
【0014】
例えば、対話システム300が自動車に備えられるものであり当該自動車の運転者をユーザとするものである場合であれば、周囲画像取得部320は、当該自動車の運転席からフロントガラスを介して見える風景の画像を周囲画像として撮影すればよい。例えば、対話システム300が自動車に備えられるものであり当該自動車に乗っている運転者以外の人をユーザとするものである場合であれば、周囲画像取得部320は、当該自動車のすべての窓を介して見える周囲360度の風景の画像を周囲画像として撮影すればよい。
【0015】
周囲画像取得部320の機能は対話システム300とは異なる周知の装置でも実現できる。したがって、対話システム300には周囲画像取得部320を備えずに、周囲画像取得部320の機能を備えた他の装置から対話システム300に周囲画像が入力されるようにしてもよい。または、周囲画像取得部320が、他の装置から周囲画像の入力を受け付けることにより周囲画像を取得して、取得した周囲画像をそのまま出力するものであってもよい。
【0016】
[周囲画像記憶部330]
周囲画像記憶部330には、周囲画像取得部320で周囲画像が取得された各時刻の、周囲画像取得部320で取得された周囲画像または対話システム300に入力された周囲画像、が入力される。周囲画像記憶部330は、各時刻の周囲画像を、各周囲画像が取得された時刻を表す情報と組にして、記憶する(ステップS330)。周囲画像記憶部330に記憶された各時刻の周囲画像は、必要に応じて文脈発話候補生成部340と印象発話候補生成部350に対して出力される。
【0017】
周囲画像が取得された時刻を表す情報は、対話システム300に内蔵された図示しない時計から取得されるようにしてもよいし、GPSユニットを備える移動体に対話システム300が備えられる場合であれば、GPSユニットから取得されるようにしてもよい。
【0018】
周囲画像記憶部330は、周囲画像と周囲画像が取得された時刻を表す情報による組を最新のものから所定時間Tb分だけ記憶しておくようにしてもよい。周囲画像記憶部330が周囲画像と周囲画像が取得された時刻を表す情報による組を最新のものから所定時間Tb分だけ記憶しておくためには、周囲画像が取得された時刻を表す情報を用いればよい。所定時間Tbは、人が移動体と共に移動している状況において、過去に見た風景に基づく発話を人が行う可能性が高い時間範囲として予め実験等により定められた時間とすればよい。
【0019】
次に、対話システム300が行う発話生成方法に関連する各構成部と各構成部の処理について説明する。
【0020】
[ユーザ発話取得部310]
ユーザ発話取得部100は、ユーザが発声した音声に含まれる発話(すなわち、ユーザ発話)を表すテキストであるユーザ発話テキストと、当該ユーザ発話があったことを表すユーザ発話検出情報と、を取得する(ステップS310)。ユーザ発話取得部310によって取得されたユーザ発話テキストは文脈発話候補生成部340に対して出力される。ユーザ発話取得部310によって取得されたユーザ発話検出情報はシステム発話決定部360に対して出力される。
【0021】
ユーザ発話取得部310は周知の技術によって実現されればよい。例えば、ユーザ発話取得部310は、マイクロホンとAD変換器と音声区間検出器と音声認識器と認識結果解析器と内蔵時計により構成される。マイクロホンは、マイクロホンの周辺の空間領域で発生した音を収音してアナログの電気信号に変換してAD変換器に出力する。AD変換器は、入力されたアナログの電気信号をディジタル音信号に変換して出力する。音声区間検出器は、ディジタル音信号に含まれる音声区間を検出して、音声区間のディジタル音信号を出力する。また、音声区間検出器は、音声区間を検出した場合にユーザ発話検出情報を生成して出力する。ユーザ発話検出情報は、音声区間検出器が音声区間を検出したことを表す情報であればよいが、例えば、音声区間検出器が検出した音声区間を代表する時刻などであってもよい。音声区間を代表する時刻の例は、音声区間の始端の時刻、音声区間の終端の時刻、音声区間の始端の時刻と終端の時刻の中央値、である。音声認識器は、音声区間のディジタル音信号に対して音声認識処理をすることで音声認識結果を得て出力する。認識結果解析器は、音声認識結果に対して形態素解析などを行うことで発話内容を表すテキストであるユーザ発話テキストを得る。ユーザ発話取得部310は、後述するシステム発話出力部370がシステム発話の音声を出力している間はAD変換器と音声認識器と認識結果解析器の少なくとも何れかが動作しないようにされていたり、マイクロホンの指向性がユーザの口の位置に向けられていたりすることにより、後述するシステム発話の音声に含まれる発話内容などはユーザ発話テキストとして取得しないようにされており、ユーザが発声した音声に含まれる発話を表すテキストのみがユーザ発話テキストとして取得するようにされている。
【0022】
上述したようにユーザ発話取得部310を実現する技術は周知であり、ユーザ発話取得部310の機能は他の装置でも実現できることから、対話システム300にはユーザ発話取得部310を備えずに、ユーザ発話取得部310の機能を備えた他の装置から対話システム300にユーザ発話テキストとユーザ発話検出情報が入力されるようにしてもよい。または、ユーザ発話取得部310は、他の装置からユーザ発話テキストの入力を受け付けることによりユーザ発話テキストを取得して、ユーザ発話テキストをそのまま出力するとともに、ユーザ発話検出情報を生成して出力するようにしもよい。
【0023】
[文脈発話候補生成部340]
文脈発話候補生成部340には、ユーザ発話取得部310が出力したユーザ発話テキストまたは対話システム300に入力されたユーザ発話テキストと、周囲画像記憶部330に記憶された周囲画像と、が少なくとも入力される。文脈発話候補生成部340は、ユーザと対話システム300による対話の直前の文脈に基づく発話のテキストである文脈発話候補を生成する(ステップS340)。文脈発話候補生成部340によって生成された文脈発話候補は、システム発話決定部360に対して出力される。文脈発話候補生成部340は、ステップS340の処理において、文脈発話候補の対話の継続性の指標値である話題継続度を推定してもよい。話題継続度が文脈発話候補生成部340によって推定された場合には、文脈発話候補生成部340によって推定された話題継続度もシステム発話決定部360に対して出力される。文脈発話候補生成部340の例は、第3実施形態で説明する。
【0024】
文脈発話候補は、文脈発話候補生成部340が処理を行う時点で最新の発話に対して対話システム300が行うシステム発話の候補となる発話のテキストであり、ユーザと対話システム300による対話の直前の文脈に基づく発話のテキストである。ユーザと対話システム300による対話の直前の文脈に基づく発話の例は、ユーザと対話システム300による対話において既に行われた発話のうちの文脈発話候補生成部340が処理を行う時点で最新の発話と同じ話題の発話、当該最新の発話の話題と関連する話題の発話、当該最新の発話と同じ対象についての発話、当該最新の発話の対象に関連する対象についての発話、当該最新の発話と同じ場所について発話、当該最新の発話に含まれる場所と関連する場所についての発話、である。なお、ユーザと対話システム300による対話において既に行われた発話のうちの文脈発話候補生成部340が処理を行う時点で最新の発話は、ユーザ発話である場合もあれば、システム発話である場合もある。例えば、文脈発話候補生成部340は、ユーザ発話テキストの内容と周囲画像の内容に基づいて、または、周囲画像の内容には基づかずにユーザ発話テキストの内容に基づいて、文脈発話候補を生成する。すなわち、文脈発話候補生成部340が生成する文脈発話候補は、周囲画像の内容のみに基づく発話ではない発話のテキストである。
【0025】
文脈発話候補生成部340は、ユーザ発話テキストが入力されたのを契機にステップS340の処理を行うようにしてもよい。すなわち、文脈発話候補生成部340は、ユーザ発話テキストが入力された場合にのみ、ユーザ発話テキストが入力されたのを契機に、文脈発話候補を生成するようにしてもよい。このようにすることで、文脈発話候補生成部340は、ユーザ発話に対する発話として対話システム300が行うシステム発話の候補となる発話のテキストのみを生成することができる。言い換えると、このようにした場合には、文脈発話候補生成部340は、対話システム300自身が行ったシステム発話に対しては、対話システム300が行うシステム発話の候補となる発話のテキストを生成しない。
【0026】
[印象発話候補生成部350]
印象発話候補生成部350には、周囲画像記憶部330に記憶された周囲画像が入力される。印象発話候補生成部350は、ユーザと対話システム300による対話の直前の文脈に基づかずに周囲画像の内容に基づく発話のテキストである印象発話候補を生成する(ステップS350)。印象発話候補生成部350によって生成された印象発話候補はシステム発話決定部360に対して出力される。印象発話候補生成部350は、ステップS350の処理において、印象発話候補の印象の強さの指標値である話題強度を推定してもよい。話題強度が印象発話候補生成部350によって推定された場合には、印象発話候補生成部350によって推定された話題強度もシステム発話決定部360に対して出力される。印象発話候補生成部350の例は、第2実施形態で説明する。
【0027】
印象発話候補は、ユーザと対話システム300による対話の直前の文脈に基づかずに、周囲画像の内容に基づき、現在または過去の周囲画像に含まれる対象についての直観的な印象を表現する発話のテキストである。印象発話候補の対象の例は、綺麗な自然風景、建造物の雰囲気、人物の特徴的な動作などである。例えば、印象発話候補生成部350は、ユーザ発話テキストの内容には基づかずに周囲画像の内容に基づいて、印象発話候補を生成する。すなわち、印象発話候補生成部350が生成する印象発話候補は、周囲画像の内容のみに基づいて生成された発話のテキストである。
【0028】
ユーザの移動速度が極めて速い場合を除けば、例えば、自動車に乗って移動しているユーザを対話システム300が対象とするのであれば、印象発話候補生成部350は、1秒間に1回などの所定の時間間隔TiでステップS350の処理を行うようにすればよい。すなわち、印象発話候補生成部350は、所定の時間間隔Tiの各周囲画像に対して、ユーザと対話システム300による対話の直前の文脈に基づかずに当該周囲画像の内容に基づく発話のテキストである印象発話候補を生成すればよい。この場合には、周囲画像記憶部330に記憶された周囲画像のうちの時間間隔Tiの各周囲画像が印象発話候補生成部350に入力されればよい。なお、同様の理由で文脈発話候補生成部340にも時間間隔Tiの各周囲画像が入力されればよく、周囲画像記憶部330に記憶しておく周囲画像を時間間隔Tiの周囲画像のみとしてもよいし、周囲画像取得部320が取得する周囲画像を時間間隔Tiの周囲画像のみとしてもよい。
【0029】
[システム発話決定部360]
システム発話決定部360には、文脈発話候補生成部340が出力した文脈発話候補と、印象発話候補生成部350が出力した印象発話候補と、が少なくとも入力される。システム発話決定部360には、ユーザ発話取得部310が出力したユーザ発話検出情報または対話システム300に入力されたユーザ発話検出情報も必要に応じて入力されてもよい。また、システム発話決定部360には、文脈発話候補生成部340が出力した話題継続度(すなわち、文脈発話候補の話題継続度)も必要に応じて入力されてもよい。また、システム発話決定部360には、印象発話候補生成部350が出力した話題強度(すなわち、印象発話候補の話題強度)も必要に応じて入力されてもよい。
【0030】
システム発話決定部360は、文脈発話候補と印象発話候補の何れか一方を予め定めた規則によって選択し、選択した発話候補を対話システム300が行う発話のテキストであるシステム発話テキストとして決定する(ステップS360)。システム発話決定部360によって決定されたシステム発話テキストは、システム発話出力部370に対して出力される。対話システム300がシステム発話出力部370を含まない場合には、システム発話決定部360によって決定されたシステム発話テキストは、対話システム300から出力される。
【0031】
システム発話決定部360は、ステップS360の処理として、まず、複数個の印象発話候補のうちの何れか1つを最適印象発話候補として選択し(ステップS360-1)、次に、文脈発話候補と最適印象発話候補の何れか一方を予め定めた規則によって選択し、選択した発話候補を対話システム300が行う発話のテキストであるシステム発話テキストとして決定する(ステップS360-2)、という処理を行ってもよい。
【0032】
例えば、システム発話決定部360内の図示しない記憶部に、入力された印象発話候補と話題強度の組を最新のものから所定時間T3分だけを記憶しておくようにして、システム発話決定部360は、ステップS360-1の処理として、最新のものから所定時間T3過去のものまでの複数個の印象発話候補のうちの、すなわち、現在(システム発話決定部360が処理を行う時点)から所定時間T3過去までの複数個の印象発話候補のうちの、話題強度が最も大きい印象発話候補を最適印象発話候補として選択する処理を行う。T3の例は15秒である。
【0033】
システム発話決定部360は、ステップS360-2の処理で最適印象発話候補が選択された場合のうちの、ステップS360-1の処理で選択された最適印象発話候補が基づく周囲画像が取得された時刻と現在の時刻との差分が所定の閾値TH11より大きいか以上である場合には、選択された最適印象発話候補に「少し前に」のような時間が経過したことを表す修飾表現を付したテキストをシステム発話テキストとして生成するとよい。このことはステップS360-1とS360-2を行う場合に限られない。すなわち、システム発話決定部360は、文脈発話候補と印象発話候補とから印象発話候補を選択した場合であって、印象発話候補が基づく周囲画像が取得された時刻と現在の時刻との差分が所定の閾値TH11より大きいか以上である場合には、選択された印象発話候補に時間が経過したことを表す修飾表現を付したテキストをシステム発話テキストとして生成するとよい。
【0034】
複数の人による対話では、対話以外に人の感覚に対する大きな刺激がない場合には、対話の内容によって話題が遷移することはあるものの、現在までの対話の文脈に基づく発話が行われるが、対話以外に人の感覚に対する大きな刺激があった場合には、現在までの対話の文脈に基づかない発話が行われる。例えば、複数の人が同じ自動車に乗って移動しながら対話をする場合であれば、当該複数の人が共に視認可能な対象が時々刻々と入れ替わっていく中で対話が行われ、印象的な対象が視認された場合には、現在までの対話の文脈に基づかずに、当該印象的な対象のみに基づく発話がされることがある。例えば、現在までの対話の文脈に基づく対話が活発に行われていない状況においては、視認された何らかの対象のみに基づく発話がされることも多い。また、現在までの対話の文脈に基づく対話が活発に行われている状況でも、印象の度合いが大きい対象が視認された場合には、現在までの対話の文脈に基づく発話がされることがある。システム発話決定部360は、複数の人が同じ自動車に乗って移動しながら対話をする場合の前述したような対話の特徴を反映した発話を対話システム300が行うことができるように、例えば以下の第1例から第4例のようにシステム発話テキストを決定する。なお、以下の第1例から第4例では上述したステップS360に対応する例を説明するが、印象発話候補を最適印象発話候補と読み換え、印象発話候補の話題強度を最適印象発話候補の話題強度と読み換えて、システム発話決定部360がステップS360-2の処理として以下の第1例から第4例の処理を行うようにしてもよい。
【0035】
[システム発話決定部360の第1例]
第1例では、システム発話決定部360は、対話が継続されていると判断された場合には文脈発話候補をシステム発話テキストとして選択し、対話が継続されていないと判断された場合には印象発話候補をシステム発話テキストとして選択する(ステップS360A)。すなわち、ステップS360Aにおける予め定めた規則は、対話が継続されていると判断された場合には文脈発話候補をシステム発話テキストとして選択し、対話が継続されていないと判断された場合には印象発話候補をシステム発話テキストとして選択する、という規則である。
【0036】
例えば、システム発話決定部360は、対話システム300が1つ前のシステム発話を出力してから所定時間T1以内にユーザ発話が行われた場合(以下、「第1条件を満たす場合」とよぶ。)には文脈発話候補をシステム発話テキストとして選択し、それ以外の場合には、すなわち、第1条件を満たさない場合には、印象発話候補をシステム発話テキストとして選択する(ステップS360A1)。所定時間T1は、対話が一旦途切れたと判断される時間として予め定められた時間であり、例えば5秒である。
【0037】
例えば、対話システム300が1つ前のシステム発話を出力した時刻をシステム発話決定部360内の図示しない記憶部に記憶しておき、システム発話決定部360は、対話システム300が1つ前のシステム発話を出力した時刻から所定時間T1以内にユーザ発話検出情報が新たに入力された場合には第1条件を満たすと判断し、対話システム300が1つ前のシステム発話を出力した時刻から所定時間T1経過してもユーザ発話検出情報が新たに入力されない場合には第1条件を満たさないと判断すればよい。
【0038】
第3実施形態の変形例1で説明するように、条件次第では文脈発話候補生成部340から文脈発話候補が出力されない場合がある。このような場合には、システム発話決定部360が、第1条件を満たすか否かに加えて、1つ前のユーザ発話から所定時間T2以内にユーザ発話が行われたか否かにも基づいてステップS360Aの処理を行うとよい。具体的には、システム発話決定部360は、第1条件を満たす場合には文脈発話候補をシステム発話テキストとして選択し、1つ前のユーザ発話から所定時間T2以内にユーザ発話が行われた場合(以下、「第2条件を満たす場合」とよぶ。)にも文脈発話候補をシステム発話テキストとして選択し、これら2つの場合以外の場合には、すなわち、第1条件と第2条件の何れも満たさない場合には、印象発話候補をシステム発話テキストとして選択する(ステップS360A2)。所定時間T2は、対話が一旦途切れたと判断される時間として予め定められた時間であり、例えば5秒である。
【0039】
例えば、1つ前のユーザ発話検出情報が入力された時刻をシステム発話決定部360内の図示しない記憶部に記憶しておき、システム発話決定部360は、1つ前のユーザ発話検出情報が入力された時刻から所定時間T2以内にユーザ発話検出情報が新たに入力された場合には第2条件を満たすと判断し、1つ前のユーザ発話検出情報が入力された時刻から所定時間T2経過してもユーザ発話検出情報が新たに入力されない場合には第2条件を満たさないと判断すればよい。
【0040】
なお、システム発話決定部360は、第1条件を満たす場合に加えて、対話システム300が動作を開始してから所定時間T3以内にユーザが発話した場合(以下、「第3条件を満たす場合」とよぶ。)にも文脈発話候補をシステム発話テキストとして選択し、第1条件と第3条件の何れも満たさない場合には印象発話候補をシステム発話テキストとして選択してもよい(ステップS360A3)。同様に、システム発話決定部360は、第1条件を満たす場合と第2条件を満たす場合に加えて、第3条件を満たす場合にも文脈発話候補をシステム発話テキストとして選択し、第1条件と第2条件と第3条件の何れも満たさない場合には印象発話候補をシステム発話テキストとして選択してもよい(ステップS360A4)。第3条件を満たすか否かは、ユーザが自発に対話を開始しようとしているか否かに対応する。所定時間T3は、人が自発に対話を開始しようとしていないと判断される時間として予め定められた時間であり、例えば5秒である。
【0041】
例えば、対話システム300が動作を開始した時刻をシステム発話決定部360内の図示しない記憶部に記憶しておき、システム発話決定部360は、対話システム300が動作を開始した時刻から所定時間T3以内にユーザ発話検出情報が入力された場合には第3条件を満たすと判断し、対話システム300が動作を開始した時刻から所定時間T3経過してもユーザ発話検出情報が入力されない場合には第3条件を満たさないと判断すればよい。
【0042】
システム発話決定部360の第1例によれば、対話が活発に行われている場合には対話システム300が文脈に沿ったシステム発話を行い、対話が一旦途切れたときなどのように対話が活発に行われていない状況である場合には対話システム300が風景に基づくシステム発話を行うことができるようになり、複数の人が同じ自動車に乗って移動しながら対話をする場合と同様の自然な対話を実現することができる。
【0043】
[システム発話決定部360の第2例]
第2例では、システム発話決定部360は、対話が継続されていると判断され、かつ、印象発話候補の話題強度が所定の閾値TH12以下である場合には、文脈発話候補をシステム発話テキストとして選択し、対話が継続されていると判断され、かつ、印象発話候補の話題強度が閾値TH12より大きい場合(以下、「第4条件を満たす場合」とよぶ。)には、印象発話候補をシステム発話テキストとして選択し、対話が継続されていないと判断された場合には、印象発話候補をシステム発話テキストとして選択する(ステップS360B)。すなわち、ステップS360Bにおける予め定めた規則は、対話が継続されていると判断され、かつ、印象発話候補の話題強度が閾値TH12以下である場合には、文脈発話候補をシステム発話テキストとして選択し、対話が継続されていないと判断された場合、および/または、印象発話候補の話題強度が閾値TH12より大きい場合、には、印象発話候補をシステム発話テキストとして選択する、という規則である。閾値TH12は、現在までの対話の文脈に基づかずに印象的な対象のみに基づく発話をするか否かの境界の話題強度として予め定められた値である。なお、「閾値TH12より大きい場合」を「閾値TH12以上である場合」と読み換えて、「閾値TH12以下である場合」を「閾値TH12より小さい場合」と読み換えてもよい。このことは、後述する閾値との比較表現の記載についても同様である。
【0044】
第2例における対話が継続されているか否かの判断は、第1例と同じである。すなわち、第2例では、例えば、システム発話決定部360は、第1条件を満たし第4条件を満たさない場合には文脈発話候補をシステム発話テキストとして選択し、それ以外の場合には、すなわち、第1条件を満たさない、第4条件を満たす、の少なくとも何れかに該当する場合には、印象発話候補をシステム発話テキストとして選択する(ステップS360B1)。
【0045】
または、例えば、システム発話決定部360は、第1条件を満たし第4条件を満たさない場合には文脈発話候補をシステム発話テキストとして選択し、第2条件を満たし第4条件を満たさない場合にも文脈発話候補をシステム発話テキストとして選択し、これら2つの場合以外の場合には、すなわち、第1条件を満たさない、第2条件を満たさない、第4条件を満たす、の少なくとも何れかに該当する場合には、印象発話候補をシステム発話テキストとして選択する(ステップS360B2)。
【0046】
第2例でも第1例と同様に、上述した第3条件による判断を組み合わせてもよい。すなわち、例えば、システム発話決定部360は、第1条件を満たし第4条件を満たさない場合には文脈発話候補をシステム発話テキストとして選択し、第3条件を満たし第4条件を満たさない場合にも文脈発話候補をシステム発話テキストとして選択し、これら2つの場合以外の場合には、すなわち、第1条件を満たさない、第3条件を満たさない、第4条件を満たす、の少なくとも何れかに該当する場合には、印象発話候補をシステム発話テキストとして選択する、という処理を行ってもよい(ステップS360B3)。
【0047】
または、例えば、システム発話決定部360は、第1条件を満たし第4条件を満たさない場合には文脈発話候補をシステム発話テキストとして選択し、第2条件を満たし第4条件を満たさない場合にも文脈発話候補をシステム発話テキストとして選択し、第3条件を満たし第4条件を満たさない場合にも文脈発話候補をシステム発話テキストとして選択し、これら3つの場合以外の場合には、すなわち、第1条件を満たさない、第2条件を満たさない、第3条件を満たさない、第4条件を満たす、の少なくとも何れかに該当する場合には、印象発話候補をシステム発話テキストとして選択する、という処理を行ってもよい(ステップS360B4)。
【0048】
システム発話決定部360の第2例によれば、対話が活発に行われていて視認される対象の印象の度合いが小さい場合には対話システム300が文脈に沿ったシステム発話を行い、対話が活発に行われていても視認される対象の印象の度合いが大きい場合には対話システム300が風景に基づくシステム発話を行い、対話が一旦途切れたときなどのように対話が活発に行われていない状況である場合には対話システム300が風景に基づくシステム発話を行うことができるようになり、複数の人が同じ自動車に乗って移動しながら対話をする場合と同様の自然な対話を実現することができる。
【0049】
[システム発話決定部360の第3例]
第3例は、印象の度合いが大きい対象が視認されたと判断された場合には印象発話候補をシステム発話テキストとして選択し、印象の度合いが大きい対象が視認されていないと判断された場合には文脈発話候補をシステム発話テキストとして選択する例である。第3例では、システム発話決定部360は、印象発話候補の話題強度が所定の閾値TH13より大きい場合には印象発話候補をシステム発話テキストとして選択し、そうでない場合、すなわち、印象発話候補の話題強度が閾値TH13以下である場合には文脈発話候補をシステム発話テキストとして選択する(ステップS360C)。すなわち、ステップS360Cにおける予め定めた規則は、印象発話候補の話題強度が閾値TH13より大きい場合には印象発話候補をシステム発話テキストとして選択し、印象発話候補の話題強度が閾値TH13以下である場合には文脈発話候補をシステム発話テキストとして選択する、という規則である。閾値TH13は、印象的な対象のみに基づく発話をするか否かの境界の話題強度として予め定められた値である。
【0050】
システム発話決定部360の第3例によれば、視認される対象の印象の度合いが大きい場合には対話システム300が風景に基づくシステム発話を行い、視認される対象の印象の度合いが小さい場合には対話システム300が文脈に沿ったシステム発話を行うことができるようになり、複数の人が同じ自動車に乗って移動しながら対話をする場合と同様の自然な対話を実現することができる。
【0051】
[システム発話決定部360の第4例]
第4例では、システム発話決定部360は、文脈発話候補の話題継続度と印象発話候補の話題強度に基づいて、文脈発話候補と印象発話候補のうちの何れか一方をシステム発話テキストとして選択する。具体的には、システム発話決定部360は、文脈発話候補の話題継続度が大きいほど文脈発話候補がシステム発話テキストとして選択される優先度が高く、かつ、印象発話候補の話題強度が大きいほど印象発話候補がシステム発話テキストとして選択される優先度が高い、という選択基準に従って、文脈発話候補と印象発話候補のうちの何れか一方をシステム発話テキストとして選択する(ステップS360D)。すなわち、ステップS360Dにおける予め定めた規則は、文脈発話候補の話題継続度が大きいほど文脈発話候補がシステム発話テキストとして選択される優先度が高く、かつ、印象発話候補の話題強度が大きいほど印象発話候補がシステム発話テキストとして選択される優先度が高い、という選択基準に従って選択する、という規則である。
【0052】
例えば、システム発話決定部360は、話題継続度が小さいほど値が大きくかつ話題強度が大きいほど値が大きい指標値(以下、「印象発話候補の優先度合いの指標値」という。)が所定の閾値TH14より大きい場合には、印象発話候補をシステム発話テキストとして選択し、それ以外の場合、すなわち、印象発話候補の優先度合いの指標値が閾値TH14以下である場合には、文脈発話候補をシステム発話テキストとして選択する(ステップS360D1)。または、例えば、システム発話決定部360は、話題継続度が大きいほど値が大きくかつ話題強度が小さいほど値が大きい指標値(以下、「文脈発話候補の優先度合いの指標値」という。)が所定の閾値TH15より大きい場合には、文脈発話候補をシステム発話テキストとして選択し、それ以外の場合、すなわち、文脈発話候補の優先度合いの指標値が閾値TH15以下である場合には、印象発話候補をシステム発話テキストとして選択する(ステップS360D2)。
【0053】
または、例えば、システム発話決定部360は、印象発話候補の優先度合いの指標値が大きいほど印象発話候補がシステム発話テキストとして選択される確率が高く(すなわち、文脈発話候補がシステム発話テキストとして選択される確率が低く)、印象発話候補の優先度合いの指標値が小さいほど文脈発話候補がシステム発話テキストとして選択される確率が高い(すなわち、印象発話候補がシステム発話テキストとして選択される確率が低い)、重み付きランダムサンプリングによって、文脈発話候補と印象発話候補のうちの何れか一方をシステム発話テキストとして選択する(ステップS360D3)。または、例えば、システム発話決定部360は、文脈発話候補の優先度合いの指標値が大きいほど文脈発話候補がシステム発話テキストとして選択される確率が高く(すなわち、印象発話候補がシステム発話テキストとして選択される確率が低く)、文脈発話候補の優先度合いの指標値が小さいほど印象発話候補がシステム発話テキストとして選択される確率が高い(すなわち、文脈発話候補がシステム発話テキストとして選択される確率が低い)、重み付きランダムサンプリングによって、文脈発話候補と印象発話候補のうちの何れか一方をシステム発話テキストとして選択する(ステップS360D4)。
【0054】
システム発話決定部360の第4例によれば、対話の継続の度合いと視認される対象の印象の度合いの両方を考慮して文脈に沿ったシステム発話と風景に基づくシステム発話の何れかを行うことができるようになり、複数の人が同じ自動車に乗って移動しながら対話をする場合と同様の自然な対話を実現することができる。
【0055】
[システム発話出力部370]
システム発話出力部370には、システム発話決定部360が生成したシステム発話テキストが入力される。システム発話出力部370は、システム発話テキストの音声であるシステム発話を出力する(ステップS370)。
【0056】
システム発話出力部370は周知の技術によって実現されればよい。例えば、システム発話出力部370は、音声合成器とDA変換器とスピーカにより構成される。音声合成器はシステム発話テキストに対して音声合成処理をすることでシステム発話テキストに対応するディジタル音信号を得る。DA変換器は、入力されたディジタル音信号をアナログの電気信号に変換して出力する。スピーカは、入力されたアナログの電気信号を空気振動に変換してスピーカ周辺の空間領域に放音する。
【0057】
上述したようにシステム発話出力部370を実現する技術は周知であり、システム発話出力部370の機能は他の装置でも実現できることから、対話システム300にはシステム発話出力部370を備えずに、システム発話出力部370の機能を備えた他の装置に対して対話システム300がシステム発話テキストを出力するようにしてもよい。または、システム発話出力部370は、システム発話決定部360からシステム発話テキストの入力を受け付けて、システム発話テキストをそのまま他の装置に対して出力するようにしもよい。
【0058】
<第2実施形態>
第2実施形態では、現在または過去の周囲画像に含まれる対象についての直観的な印象を表現する発話のテキストである印象発話候補を生成する印象発話候補生成部350の例について説明する。
【0059】
印象発話候補生成部350は、例えば図4に示すように、画像特徴抽出部351、印象発話生成部352、話題強度推定部353を含む。ただし、後述するように、図4に破線で示した話題強度推定部353が印象発話候補生成部350に含まれるのは必須ではない。
【0060】
印象発話候補生成部350が行う印象発話候補を生成する処理は、移動体と共に移動しているユーザの周囲の風景に基づいて、対話システム300が行う発話の候補を生成して出力する処理である。印象発話候補生成部350が行う印象発話候補を生成する処理(すなわち、第1実施形態で説明したステップS350の処理)は、印象発話候補生成部350が図5に示すステップS351、S352、S353の処理を行うことにより例えば実現される。ただし、後述するように、印象発話候補生成部350が行う印象発話候補を生成する処理に図5に破線で示したステップS353の処理が含まれるのは必須ではない。
【0061】
[画像特徴抽出部351]
画像特徴抽出部351には、周囲画像記憶部330に記憶された周囲画像が入力される。画像特徴抽出部351は、周囲画像に含まれる対象を表現する情報を取得する(ステップS351)。画像特徴抽出部351は、例えば、参考文献1に記載されているような画像に含まれる複数個の物体を同定する物体検出技術を用いて、周囲画像に含まれる対象を表現する情報を取得すればよい。周囲画像に含まれる対象を表現する情報のことを、以下では便宜的に「周囲画像対象情報」とよぶ。
参考文献1:Zhu, X., Su, W., Lu, L., Li, B., Wang, X., and Dai, J., “Deformable DETR: Deformable Transformers for End-to-End Object Detection”, in Proceedings of International Conference on Learning Representations, 2021
【0062】
周囲画像対象情報は、周囲画像に含まれる対象の種類を特定する情報、対象が存在している位置、対象が有する特徴などを含んでもよい。画像特徴抽出部351が1つの周囲画像から取得する周囲画像対象情報には、1つの対象を表現する情報のみが含まれている場合もあれば、複数個の対象を表現する情報が含まれている場合もある。画像特徴抽出部351によって取得された周囲画像対象情報、すなわち、周囲画像に含まれる対象を表現する情報は、印象発話生成部352に対して出力される。
【0063】
なお、画像特徴抽出部351は、周囲画像の特徴ベクトルなどのように周囲画像の全体を表現する情報を周囲画像対象情報として取得してもよい。これは、周囲画像の特徴ベクトルなどの周囲画像の全体を表現する情報にも、周囲画像に含まれる各対象を表現する情報が含まれているからである。
【0064】
[印象発話生成部352]
印象発話生成部352には、画像特徴抽出部351が出力した周囲画像対象情報、すなわち、周囲画像に含まれる対象を表現する情報、が入力される。印象発話生成部352は、周囲画像対象情報に基づく発話のテキストである印象発話候補を生成する(ステップS352)。印象発話候補については第1実施形態でも説明した通りであり、印象発話生成部352が生成する印象発話候補は、ユーザと対話システム300による対話の直前の文脈に基づかずに、周囲画像に含まれる対象についての直観的な印象を表現する発話のテキストである。したがって、印象発話生成部352は、周囲画像対象情報に基づいて、当該周囲画像対象情報の画像特徴抽出部351における取得元の周囲画像に含まれる対象についての直観的な印象を表現する発話のテキストを印象発話候補として生成する。印象発話生成部352は、周囲画像対象情報に基づいて、1つの対象についての直観的な印象を表現する発話のテキストを印象発話候補として生成してもよいし、複数個の対象についての直観的な印象を表現する発話のテキストを印象発話候補として生成してもよい。1つの対象についての直観的な印象を表現する発話のテキストの例は、周囲画像対象情報の取得元の周囲画像に含まれる1つの対象について説明する発話のテキストである。複数個の対象についての直観的な印象を表現する発話のテキストの例は、周囲画像対象情報の取得元の周囲画像に含まれる複数個の対象の関係について説明する発話のテキストである。印象発話生成部352によって生成された印象発話候補は、話題強度推定部353とシステム発話決定部360に対して出力される。
【0065】
[話題強度推定部353]
話題強度推定部353には、印象発話生成部352が出力した印象発話候補が少なくとも入力される。話題強度推定部353は、印象発話候補の話題強度を推定する(ステップS353)。話題強度は、印象発話候補の話題としての強さを表す指標値、すなわち、印象発話候補の印象の強さを表す指標値である。話題強度推定部353は、例えば以下の第1例または第2例のように話題強度を決定する。話題強度推定部353によって推定された話題強度は、システム発話決定部360に対して出力される。
【0066】
[話題強度推定部353の第1例]
話題強度推定部353の図示しない記憶部に多数の(すなわち、複数組の)発話テキストの例と話題強度による組を予め記憶しておき、話題強度推定部353は、記憶部に記憶された発話テキストの例のうちの印象発話候補との類似度が最も高い発話テキストの例と組にされている話題強度を、印象発話候補の話題強度として取得する(ステップS353A)。話題強度推定部353の図示しない記憶部に記憶しておく発話テキストの例(以下、便宜的に「例文」という。)と話題強度による組は、例えば、複数の被験者による実験などによって生成しておけばよい。具体的には、例えば、予め用意した複数組の連続画像を複数の被験者に提示して、各被験者に、例文を作成してもらい、作成した例文の持つ話題の強さを表す5段階の何れかの評価値である話題強度を付与してもらうことで、例文と話題強度による組を多数組得ればよい。
【0067】
[話題強度推定部353の第2例]
話題強度推定部353の図示しない記憶部に、多数の(すなわち、複数個の)候補連続画像と、候補連続画像それぞれに対応する多数の(すなわち、複数個の)の例文と、を予め記憶しておく。話題強度推定部353の図示しない記憶部に記憶しておく候補連続画像は、例えば、様々な道を自動車などで走行して撮影しておけばよい。話題強度推定部353の図示しない記憶部に記憶しておく例文は、例えば、撮影した候補連続画像を複数の被験者に提示して、各被験者に例文を作成してもらうことで、取得しておけばよい。なお、「連続画像」は、便宜的に用いた表現であり、数秒間撮影した映像に含まれる連続する画像であるとよいが、1枚の画像であってもよい。すなわち、便宜的な表現である「連続画像」は、「連続する複数枚の画像または1枚の画像」と読み換えられるものである。
【0068】
話題強度推定部353には、図4に一点鎖線で例示するように、印象発話候補の生成元の周囲画像を含む連続画像(以下、「周囲連続画像」という。)が入力される。印象発話候補の生成元の周囲画像とは、具体的には、印象発話生成部352において印象発話候補の生成元となった周囲画像対象情報の画像特徴抽出部351において取得元となった周囲画像のことである。なお、「周囲連続画像」は、上述した「連続画像」と同様に便宜的に用いた表現であり、印象発話候補の生成元の周囲画像を含む数秒間の連続する画像であるとよいが、印象発話候補の生成元の周囲画像そのもの(すなわち、1枚の画像)であってもよい。すなわち、便宜的な表現である「周囲連続画像」は、「連続する複数の周囲画像または1枚の周囲画像」と読み換えられるものである。
【0069】
話題強度推定部353は、記憶部に記憶された複数個の候補連続画像のうちの周囲連続画像に類似する1個以上の候補連続画像を特定し、特定された候補連続画像に対応する複数個の例文のうちの印象発話候補との類似度の値が所定の閾値TH16より大きい例文の個数を印象発話候補の話題強度として取得する(ステップS353B)。話題強度推定部353は、記憶部に記憶された候補連続画像のうちの周囲連続画像との類似度が最も高い候補連続画像を周囲連続画像に類似する候補連続画像として特定してもよい。または、話題強度推定部353は、記憶部に記憶された候補連続画像のうちの周囲連続画像との類似度が最も高いものから所定個数の候補連続画像を周囲連続画像に類似する候補連続画像として特定してもよい。または、話題強度推定部353は、記憶部に記憶された候補連続画像のうちの周囲連続画像との類似度の値が所定の閾値TH17より大きい候補連続画像を周囲連続画像に類似する候補連続画像として特定してもよい。
【0070】
なお、話題強度推定部353は、記憶部に記憶された複数個の候補連続画像のうちの周囲連続画像に類似する1個以上の候補連続画像を特定し、特定された候補連続画像に対応する複数個の例文のうちの印象発話候補との類似度の値が所定の閾値TH16より大きい例文の頻度に印象発話候補との類似度の値が大きいほど大きな重み値を与えて加算した重み付け和を印象発話候補の話題強度として取得してもよい。
【0071】
話題強度推定部353が推定する話題強度は、対話システム300のユーザの好みや興味に応じたものであってもよい。ユーザの好みや興味に応じた話題強度を推定する場合には、対話システム300がユーザの好みや興味の情報を予め取得しておくか、対話システム300が1個以上のユーザ発話テキストからユーザの好みや興味の情報を推定するようにして、話題強度推定部353が、記憶部に記憶された話題強度をユーザの好みや興味の情報に基づいて変換した変換後話題強度を印象発話候補の話題強度として取得するようにすればよい。
【0072】
話題強度推定部353が推定する話題強度は、対話システム300に設定されたパーソナリティの好みや興味に応じたものであってもよい。対話システム300に設定されたパーソナリティの好みや興味に応じた話題強度を推定する場合には、話題強度推定部353に予め記憶しておく話題強度を対話システム300に設定されたパーソナリティの好みや興味に応じた値にしておけばよい。
【0073】
なお、システム発話決定部360が話題強度を用いない場合には、印象発話候補生成部350は話題強度を推定しないでよいので、印象発話候補生成部350は話題強度推定部353を備えないでよい。
【0074】
<第2実施形態の変形例>
第2実施形態の印象発話候補生成部350は、第1実施形態の対話システム300における印象発話候補生成部350として機能させるのみならず、現在または過去の周囲画像に含まれる対象についての直観的な印象を表現する発話のテキストを生成する発話生成装置として機能させてもよい。すなわち、図4に示した印象発話候補生成部350を発話生成装置350と読み換えてもよく、印象発話生成部352が生成した周囲画像対象情報に基づく発話のテキストを印象発話テキストとして発話生成装置350の出力としてもよい。発話生成装置350が行う発話生成方法は、発話生成装置350が図5に示したステップS351、S352の処理を行うことにより例えば実現される。なお、第2実施形態で説明したように、図4に破線で示した話題強度推定部353も発話生成装置350に含めてもよく、この場合には、図5に破線で示したステップS353の処理も発話生成方法に含めて行い、話題強度推定部353が推定した話題強度も発話生成装置350の出力としてもよい。
【0075】
<第3実施形態>
第3実施形態では、ユーザと対話システム300による対話の直前の文脈に基づく発話のテキストである文脈発話候補を生成する文脈発話候補生成部340の例について説明する。
【0076】
文脈発話候補生成部340は、例えば図6に示すように、ユーザ発話記憶部341、スポット情報抽出部342、話題画像推定部343、話題画像特徴抽出部344、文脈発話生成部345、話題継続度推定部346を含む。ただし、後述するように、図6に破線で示した話題継続度推定部346が文脈発話候補生成部340に含まれるのは必須ではない。
【0077】
文脈発話候補生成部340が行う文脈発話候補を生成する処理は、移動体と共に移動しているユーザと対話システム300による対話の直前の文脈に基づいて、対話システム300が行う発話の候補を生成して出力する処理である。文脈発話候補生成部340が行う文脈発話候補を生成する処理(すなわち、第1実施形態で説明したステップS340の処理)は、文脈発話候補生成部340が図7に示すステップS341、S342、S343、S344、S345、S346の処理を行うことにより例えば実現される。ただし、後述するように、文脈発話候補生成部340が行う文脈発話候補を生成する処理に図7に破線で示したステップS346の処理が含まれるのは必須ではない。
【0078】
[ユーザ発話記憶部341]
ユーザ発話記憶部341には、ユーザ発話取得部310が出力したユーザ発話テキストが入力される。ユーザ発話記憶部341は、入力された各ユーザ発話テキストを、ユーザにより発話された時刻を表す情報と組にして記憶する(ステップS341P)。ユーザ発話記憶部341は、記憶された各ユーザ発話テキストと時刻を表す情報の組から、必要に応じたユーザ発話テキストを取得する(ステップS341)。ユーザ発話記憶部341によって取得されたユーザ発話テキストは、文脈発話生成部345に対して出力される。ユーザ発話記憶部341は、所定の時刻以降のユーザ発話テキストと時刻を表す情報の組だけを記憶しておくようにしてもよい。所定の時刻とは、例えば、後述するステップS343によって得られる話題画像の時刻である。
【0079】
ユーザにより発話された時刻を表す情報は、対話システム300に内蔵された図示しない時計から取得されるようにしてもよいし、GPSユニットを備える移動体に対話システム300が備えられる場合であれば、GPSユニットから取得されるようにしてもよい。
【0080】
[スポット情報抽出部342]
スポット情報抽出部342は、移動体と共に移動しているユーザの周囲に存在する対象についての詳細情報を取得する(ステップS342)。例えば、GPSユニットを備える移動体に対話システム300が備えられる場合であれば、GPSユニットから位置の情報(例えば、緯度経度情報)を取得して(ステップS342-1)、取得した位置の情報から当該位置から所定の範囲内(例えば、半径80メートル以内)にある対象の詳細情報を取得する(ステップS342-2)。対象の詳細情報とは、対象の客観情報と主観情報の少なくとも何れかである。対象の客観情報とは、対象の名称、対象が属するカテゴリ、対象の位置を特定する情報、対象と他の対象との相対位置関係を表す情報、などのことである。対象の主観情報とは、対象に対して人が評価した情報のことである。以下では、スポット情報抽出部342が取得した対象の詳細情報のことを、便宜的に「スポット情報」とよぶ。スポット情報抽出部342によって取得されたスポット情報は、文脈発話生成部345に対して出力される。
【0081】
スポット情報抽出部342が行うステップS342-2の処理は、例えば、Google(登録商標) Maps PlatformのPlaces APIを利用して行えばよい。具体的には、スポット情報抽出部342は、ステップS342-1で取得した緯度経度情報から所定の範囲内(例えば、半径80メートル以内)にある施設の施設IDをPlace Searchによって取得し、取得した施設IDを基に、施設の詳細情報である店舗名称、店舗のタイプ、営業時間、口コミ情報、レーティングなどをDetail Searchによって取得すればよい。
【0082】
スポット情報抽出部342は、移動体と共に移動しているユーザの周囲に存在する対象のうちの、話題となっている対象やその周辺にある対象についての詳細情報を取得するようにしてもよい。例えば、スポット情報抽出部342には、図6に点線で示したように、ユーザ発話取得部310が出力したユーザ発話テキスト、直前の処理でシステム発話決定部360が出力したシステム発話テキスト、の少なくとも何れかが入力されるようにして、スポット情報抽出部342は、入力されたユーザ発話テキストとシステム発話テキストの少なくとも何れかから話題となっている対象を特定して、特定された対象の詳細情報を取得してもよいし、入力されたユーザ発話テキストとシステム発話テキストの少なくとも何れかから話題となっている対象を含む領域の位置情報を特定して、特定された位置情報に対応する領域にある対象の詳細情報を取得してもよい。
【0083】
[話題画像推定部343]
話題画像推定部343には、周囲画像記憶部330に記憶された周囲画像と周囲画像が取得された時刻を表す情報と、ユーザ発話取得部が出力したユーザ発話テキストと、が入力される。話題画像推定部343は、ユーザ発話テキストが話題としている周囲画像を話題画像として推定して、話題画像とした周囲画像が取得された時刻を話題画像の時刻として取得する(ステップS343)。話題画像推定部343によって取得された話題画像は、話題画像特徴抽出部344に対して出力される。話題画像推定部343によって取得された話題画像の時刻は、文脈発話生成部345に対して少なくとも出力され、ユーザ発話記憶部341に対して出力されてもよい。
【0084】
話題画像推定部343が話題画像を推定する方法はどのような方法であってもよい。例えば、図6に一点鎖線で示すように、印象発話候補生成部350が生成した印象発話候補が話題画像推定部343に入力されるようにして、話題画像推定部343は、ユーザ発話テキストと過去の所定時間以内の各印象発話候補との類似度を計算し、計算により得た類似度が所定の閾値TH31より大きい周囲画像を話題画像として推定するとよい。話題画像推定部343がこの推定方法を行うとよいのは、ユーザがある風景について言及するときのユーザ発話テキストの内容は、対話システム300が当該風景を撮影した周囲画像から生成された印象発話候補の内容と類似すると仮定されるからである。
【0085】
または、例えば、話題画像推定部343は、ユーザ発話テキストと過去の所定時間以内の各周囲画像の内容との類似度を計算し、計算により得た類似度が所定の閾値TH32より大きい周囲画像を話題画像として推定してもよい。話題画像推定部343は、ユーザ発話テキストと過去の所定時間以内の各周囲画像の内容との類似度としては、例えば、参考文献2や参考文献3に記載されたCLIP、すなわち、ユーザ発話テキストの内容を表す特徴ベクトルと過去の所定時間以内の各周囲画像の内容を表す特徴ベクトルとの類似度、を計算すればよい。
参考文献2:Alec Radford, JongWook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry, Amanda Askell, Pamela Mishkin, Jack Clark, Gretchen Krueger, Ilya Sutskever, “Learning Transferable Visual Models From Natural Language Supervision”, 2013, https://arxiv.org/abs/2103.00020
参考文献3:「CLIPを使って、大量の画像の中から自分が探したい画像をテキストで検索する」、 2021/3、http://cedro3.com/ai/clip-search/
【0086】
[話題画像特徴抽出部344]
話題画像特徴抽出部344には、話題画像推定部343から出力された話題画像が入力される。話題画像特徴抽出部344は、話題画像に含まれる対象を表現する情報を取得する(ステップS344)。話題画像特徴抽出部344が行うステップS344の処理は、画像特徴抽出部351が行うステップS351と同様である。すなわち、話題画像特徴抽出部344は、例えば、参考文献1に記載されているような画像に含まれる複数個の物体を同定する物体検出技術を用いて、話題画像に含まれる対象を表現する情報を取得すればよい。話題画像に含まれる対象を表現する情報のことを、以下では便宜的に「話題画像対象情報」とよぶ。話題画像対象情報は、話題画像に含まれる対象の種類を特定する情報、対象が存在している位置、対象が有する特徴などを含んでもよい。話題画像特徴抽出部344によって取得された話題画像対象情報、すなわち、話題画像に含まれる対象を表現する情報は、文脈発話生成部345に対して出力される。なお、画像特徴抽出部351が行うステップS351と同様に、話題画像特徴抽出部344は、話題画像の特徴ベクトルなどのように話題画像の全体を表現する情報を話題画像対象情報として取得してもよい。
【0087】
[文脈発話生成部345]
文脈発話生成部345には、ユーザ発話記憶部341に記憶された話題画像の時刻以降のユーザ発話テキストと、スポット情報抽出部342から出力されたスポット情報と、話題画像特徴抽出部344から出力された話題画像対象情報と、話題画像推定部343から出力された話題画像の時刻と、話題画像の時刻以降にシステム発話決定部360が出力したシステム発話テキストと、が入力される。文脈発話生成部345は、話題画像の時刻以降のユーザ発話テキストとシステム発話決定部360が出力したシステム発話テキストとの組を対話の文脈として、対話の文脈とスポット情報と話題画像対象情報とを入力として、ユーザと対話システム300による対話の直前の文脈に基づく発話のテキストである文脈発話候補を生成する(ステップS345)。文脈発話生成部345は、例えば、参考文献4や参考文献5に記載された技術を用いて文脈発話候補を生成すればよい。文脈発話生成部345によって生成された文脈発話候補は、話題継続度推定部346とシステム発話決定部360に対して出力される。
参考文献4:Kurt Shuster, Samuel Humeau, Antoine Bordes, Jason Weston, “Engaging Image Chat: Modeling Personality in Grounded Dialogue”, https://parl.ai/projects/image_chat/
参考文献5:Kurt Shuster, Eric Michael Smith, Da Ju, Jason Weston, “Multi-Modal Open-Domain Dialogue”, Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, 2021, https://aclanthology.org/2021.emnlp-main.398/
【0088】
文脈発話候補生成部340は移動体と共に移動しているユーザによるユーザ発話を入力とした処理を行うものであるので、ユーザ発話テキストが話題としている周囲画像として話題画像推定部343が推定した話題画像は過去の周囲画像である。すなわち、文脈発話候補生成部340は、周囲画像記憶部330に記憶されたユーザの過去の周囲画像の中からユーザ発話テキストが話題としている周囲画像を話題画像として特定し、特定した話題画像に含まれる対象を表現する情報を話題画像対象情報として取得し、取得した話題画像特徴抽出に基づいて文脈発話候補を生成している。言い換えると、文脈発話候補生成部340は、ユーザと対話システム300による対話の直前の文脈に基づく発話のテキストである文脈発話候補を、周囲画像記憶部330に記憶された過去の周囲画像を少なくとも参照して生成するものである。
【0089】
[話題継続度推定部346]
話題継続度推定部346には、文脈発話生成部345が出力した文脈発話候補が入力される。話題継続度推定部346は、文脈発話候補の話題継続度を推定する(ステップS346)。話題継続度は、文脈発話候補の対話の継続性の指標値であり、文脈発話候補が対話の直前の文脈に基づく発話のテキストとして適切であるほど大きな値となる指標値である。話題継続度推定部346によって推定された話題継続度は、システム発話決定部360に対して出力される。
【0090】
例えば、話題継続度推定部346は、参考文献6の技術で学習した推定器で文脈発話候補に対して推定される対話意欲、すなわち、文脈発話候補をシステム発話テキストとして対話システム300がシステム発話をした場合にユーザが話したいと感じる度合いが大きいほど大きな値となる指標値、を話題継続度として得ればよい。
参考文献6:千葉祐弥、伊藤彰則、「WOZシステムとの対話におけるユーザの対話意欲の段階識別と特徴量の分析、第78回言語・音声理解と対話処理の研究会」、2016/10、https://www.jstage.jst.go.jp/article/jsaislud/78/0/78_02/_pdf/-char/ja
【0091】
または、例えば、話題継続度推定部346は、参考文献7の技術で学習した推定器で文脈発話候補に対して推定される興味度ラベルと心象ラベルと話題継続ラベルの少なくとも何れかに基づいて話題継続度を得てもよい。具体的には、話題継続度推定部346は、文脈発話候補をシステム発話テキストとして対話システム300がシステム発話をした場合の興味度ラベルと心象ラベルと話題継続ラベルの少なくとも何れかを参考文献7の技術で学習した推定器で推定して、推定された興味度ラベルが「興味あり」であれば大きな値であり推定された興味度ラベルが「興味なし」であれば小さな値である指標値、推定された心象ラベルが大きな値であるほど大きな値である指標値、推定された話題継続ラベルが大きな値であるほど大きな値である指標値、を話題継続度として得る。
参考文献7:平野裕貴、岡田将吾、西本遥人、駒谷和範、「マルチタスク学習による発話対ごとに付与された複数ラベルの推定」、電子情報通信学会論文誌 Vol.J104-A No.2 pp.84-94、2020/10、https://search.ieice.org/bin/summary.php?id=j104-a_2_84
【0092】
または、例えば、話題継続度推定部346は、文脈発話候補がユーザと対話システム300による対話の直前の文脈との整合性が高いほど大きな値である指標値、文脈発話候補と過去のシステム発話テキストとの類似度が高いほど小さな値となる指標値、を話題継続度として得てもよい。
【0093】
なお、システム発話決定部360が話題継続度を用いない場合には、文脈発話候補生成部340は話題継続度を推定しないでよいので、文脈発話候補生成部340は話題継続度推定部346を備えないでよい。
【0094】
<第3実施形態の変形例1>
文脈発話候補の話題継続度が小さな値であるということは、文脈発話候補のシステム発話テキストとしての適性が低いということである。そこで、話題継続度が小さいときには文脈発話生成部345によって生成された文脈発話候補が文脈発話候補生成部340から出力されないようにしてもよい。この場合には、図6に二点鎖線で示すように、文脈発話候補生成部340が文脈発話出力制御部347を含むようにして、話題継続度推定部346によって話題継続度推定部346によって推定された文脈発話候補の話題継続度が文脈発話出力制御部347に入力されるようにして、文脈発話出力制御部347が、文脈発話候補の話題継続度が所定の閾値TH33以下である場合には、文脈発話生成部345によって生成された文脈発話候補を文脈発話候補生成部340の出力としないように制御し、そうでない場合、すなわち、文脈発話候補の話題継続度が所定の閾値TH33より大きい場合にのみ、文脈発話生成部345によって生成された文脈発話候補を文脈発話候補生成部340の出力としてシステム発話決定部360に対して出力するように制御すればよい。
【0095】
<第3実施形態の変形例2>
第3実施形態の文脈発話候補生成部340は、第1実施形態の対話システム300における文脈発話候補生成部340として機能させるのみならず、ユーザと対話システム300による対話の直前の文脈に基づく発話のテキストを生成する発話生成装置として機能させてもよい。すなわち、図6に示した文脈発話候補生成部340を発話生成装置340と読み換えてもよく、文脈発話生成部345が生成した発話のテキストを文脈発話テキストとして発話生成装置340の出力としてもよい。発話生成装置340が行う発話生成方法は、発話生成装置340が図7に示したステップS341、S342、S343、S344、S345の処理を行うことにより例えば実現される。なお、第2実施形態で説明したように、図6に破線で示した話題継続度推定部346も発話生成装置340に含めてもよく、この場合には、図7に破線で示したステップS346の処理も発話生成方法に含めて行い、話題継続度推定部346が推定した話題継続度も発話生成装置340の出力としてもよい。
【0096】
<補記>
上述した対話システム300及び発話生成装置340、350の各部の処理をコンピュータにより実現してもよく、この場合は各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを図8に示すコンピュータ1000の記憶部1020に読み込ませ、演算処理部1010、入力部1030、出力部1040などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
【0097】
本発明の対話システム300及び発話生成装置340、350は、例えば単一のハードウェアエンティティとして、ハードウェアエンティティの外部から信号を入力可能な入力部、ハードウェアエンティティの外部に信号を出力可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
【0098】
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
【0099】
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部と表した各構成部)を実現する。つまり、本発明の実施形態の各構成部は、処理回路(Processing Circuitry)により構成されてもよい。
【0100】
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
【0101】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、例えば、非一時的な記録媒体であり、具体的には、磁気記録装置、光ディスク、等である。
【0102】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0103】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の非一時的な記憶装置である補助記録部1050に格納する。そして、処理の実行時、このコンピュータは、自己の非一時的な記憶装置である補助記録部1050に格納されたプログラムを記憶部1020に読み込み、読み込んだプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを記憶部1020に読み込み、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0104】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、対話システム300及び発話生成装置340、350を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【0105】
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
図1
図2
図3
図4
図5
図6
図7
図8