(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024070312
(43)【公開日】2024-05-23
(54)【発明の名称】対話システム、情報取得装置、クエリ生成装置、発話生成方法、情報取得方法、クエリ生成方法、およびプログラム
(51)【国際特許分類】
G10L 15/22 20060101AFI20240516BHJP
G10L 15/10 20060101ALI20240516BHJP
G10L 15/00 20130101ALI20240516BHJP
G06F 16/90 20190101ALI20240516BHJP
G06F 16/9032 20190101ALI20240516BHJP
G10L 15/24 20130101ALI20240516BHJP
【FI】
G10L15/22 300Z
G10L15/10 500Z
G10L15/00 200J
G06F16/90 100
G06F16/9032
G10L15/24 Z
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022180707
(22)【出願日】2022-11-11
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (1)公開日 2021年11月12日 開催場所 日本電信電話株式会社 NTT R&D FORUM-Road to IOWN 2021 グループ会社内覧会(https://www.rd.ntt/forum/2021/exhibits.html) (2)公開日 2021年11月16日 開催場所 日本電信電話株式会社 NTT R&D FORUM-Road to IOWN 2021 動画公開を含むオンライン展示 (3)公開日 2021年11月25日 公開場所 機械振興会館/オンライン(ハイブリッド) 電子情報通信学会クラウドネットワークロボット(CNR)研究会 「IoTワークショップ」招待講演(公知日:2021年11月25日) https://ken.ieice.org/ken/paper/20211125nCgn/ (4)説明日 2021年12月5日 説明場所 日本科学未来館(東京都江東区青海2-3-6) (5)ウェブサイト掲載日 2021年12月5日 ウェブサイト 日本科学未来館招待講演発表動画YouTube (6)公開日 2022年1月26日 公開場所 株式会社ハイテクノロジー推進研究所・マルチメディア推進フォーラム PART875 「人に優しいヒューマンインタフェース」 http://www.ahri.co.jp/business/forum/backnumber/2022.pdf (7)公開日 2022年2月16日 公開場所 第29回ステアラボ人工知能セミナー https://stair.connpass.com/event/238186/ (8)公開日 2022年3月5日 公開場所 日本科学未来館招待講演 https://www.miraikan.jst.go.jp/events/202203052333.html (9)公開日 2022年5月20日(概要公開) 説明場所 パシフィコ横浜(神奈川県横浜市西区みなとみらい1丁目1-1) 自動車技術会2022年春季大会 現地会場(パシフィコ横浜)とオンラインとのハイブリッド開催
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (10)公開日 2022年5月25日(論文発表) 説明場所 パシフィコ横浜(神奈川県横浜市西区みなとみらい1丁目1-1) 自動車技術会2022年春季大会 現地会場(パシフィコ横浜)とオンラインとのハイブリッド開催 (11)説明日 2022年5月26日(口頭発表) 説明場所 パシフィコ横浜(神奈川県横浜市西区みなとみらい1丁目1-1) 自動車技術会2022年春季大会 現地会場(パシフィコ横浜)とオンラインとのハイブリッド開催 (12)ウェブサイト掲載日 2022年5月30日 ウェブサイト NTTニュースリリース https://group.ntt/jp/newsrelease/2022/05/30/220530b.html (13)公開日 2022年5月30日 公開場所 在京メディア各社向け内覧会 〒100-8116 東京都千代田区大手町一丁目5番1号 記者会見室:大手町ファーストスクエアビルイーストタワー9F (14)公開日 2022年6月1日 公開場所 在阪メディア各社向け内覧会 〒534-0024 大阪府大阪市都島区東野田町4丁目15 クイントブリッジ 2階 (15)公開日 2022年6月2日 公開場所 NTTコミュニケーション科学基礎研究所 オープンハウス2022 YouTube公開デモ動画 (16)公開日 2022年6月2日 公開場所 NTTコミュニケーション科学基礎研究所 オープンハウス2022 YouTube公開講演動画 (17)ウェブサイト掲載日 2022年5月30日 ウェブサイト BUSINESS NETWORKウェブ記事掲載 https://businessnetwork.jp/article/9164/ (18)ウェブサイト掲載日 2022年5月30日 ウェブサイト NHKウェブ記事(NHK www3.nhk.or.jp) https://www3.nhk.or.jp/news/html/20220530/k10013650351000.html (19)放送日 2022年5月30日 放送番組 テレビ東京・BSテレ東 ワールドビジネスサテライト
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (20)放送日 2022年5月30日 放送番組 フジテレビ Live news α (21)発行日 2022年5月31日 刊行物 日刊工業新聞10面 (22)放送日 2022年5月30日 放送番組 テレビ朝日 グッド!モーニング (23)放送日 2022年5月31日 放送番組 NHK総合テレビ NHK NEWS おはよう日本 (24)放送日 2022年5月31日 放送番組 フジテレビ めざましテレビ (25)ウェブサイト掲載日 2022年5月31日 ウェブサイト テレビ朝日 ウェブ記事掲載(Abemaニュース) https://www.youtube.com/watch?v=qW26bTzo-Lc (26)ウェブサイト掲載日 2022年5月31日 ウェブサイト 日本経済新聞 ウェブ記事掲載(www.nikkei.com) https://www.nikkei.com/article/DGXZQOUC311JI0R30C22A5000000/ (27)放送日 2022年6月1日 放送番組 テレビ大阪やさしいニュース (28)ウェブサイト掲載日 2022年6月1日 ウェブサイト テレビ大阪ニュースYouTube https://www.youtube.com/watch?v=KPqcNxtffUU (29)発行日 2022年6月3日 刊行物 日経MJ(流通新聞)2面 (30)発行日 2022年6月6日 刊行物 日経産業新聞5面 (31)発行日 2022年6月6日 刊行物 電経新聞2面 (32)発行日 2022年6月6日 刊行物 電経新聞4面 (33)発行日 2022年6月6日 刊行物 通信興行新聞1面 (34)発行日 2022年6月10日 刊行物 科学新聞1面 (35)公開日 2022年4月13日(概要公開日) 説明場所 国立京都国際会館(〒606-0001 京都府京都市左京区岩倉大鷺町422) 2022年度人工知能学会全国大会(第36回) 現地会場(国立京都国際会館)とオンラインとのハイブリッド開催
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り (36)公開日 2022年5月27日(論文公開日) 説明場所 国立京都国際会館(〒606-0001 京都府京都市左京区岩倉大鷺町422) 2022年度人工知能学会全国大会(第36回) 現地会場(国立京都国際会館)とオンラインとのハイブリッド開催 (37)公開日 2022年6月15日(口頭発表) 公開場所 国立京都国際会館(〒606-0001 京都府京都市左京区岩倉大鷺町422) 2022年度人工知能学会全国大会(第36回) 現地会場(国立京都国際会館)とオンラインとのハイブリッド開催 (38)発行日 2022年7月8日 刊行物 NTT東日本グループNews Release (39)説明日 2022年7月12日 説明場所 中泊町立中里小学校体育館(青森県北津軽郡中泊町大字中里字亀山251-1) (40)放送日 2022年7月12日 放送番組 ABA青森朝日放送スーパーJチャンネルABA (41)ウェブサイト掲載日 2022年7月12日 ウェブサイト ABA青森朝日放送ウェブ記事(JチャンネルABAニュース) https://www.aba-net.com/news/news-49977.html (42)公開日 2022年9月4日(講演日) 公開場所 日本科学未来館7階 Zoomウェビナーとのハイブリッド方式 https://www.commu-ai.org/activity/20220904-2022fysymposium-announce.html
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】000003207
【氏名又は名称】トヨタ自動車株式会社
(74)【代理人】
【識別番号】100121706
【弁理士】
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【弁理士】
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【弁理士】
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】杉山 弘晃
(72)【発明者】
【氏名】古賀 光
(72)【発明者】
【氏名】西島 敏文
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175FA01
(57)【要約】
【課題】ユーザが移動している場合であっても、発話に含まれるユーザの周囲に過去に存在していた対象に関する情報を取得する技術を提供する。
【解決手段】移動体と共に移動している状況下の発話に含まれる対象についての画像である発話対象画像を、発話以前の時刻の周囲画像から取得し、発話対象画像に対応する位置情報である発話対象画像位置情報を取得し、発話対象画像と発話対象画像位置情報をクエリとすることで、当該クエリによる情報検索によって対象の詳細情報を取得することを可能とする。
【選択図】
図1
【特許請求の範囲】
【請求項1】
移動体と共に移動しているユーザによる発話であるユーザ発話に対する発話であるシステム発話を生成する対話システムであって、
各時刻に、前記移動体から撮影した画像である周囲画像を取得する周囲画像取得部と、
前記各時刻に、当該周囲画像を撮影した位置を特定する情報である位置情報を取得する位置情報取得部と、
前記周囲画像取得部が取得した周囲画像と、前記位置情報取得部が取得した位置情報と、を所定時間分記憶しておく周囲画像位置情報記憶部と、
前記周囲画像位置情報記憶部に記憶された前記ユーザ発話以前の時刻の周囲画像から、前記ユーザ発話に含まれる対象に対応する画像である発話対象画像を取得し、前記周囲画像位置情報記憶部から、前記発話対象画像に対応する位置情報である発話対象画像位置情報を取得する対象画像位置情報取得部と、
前記発話対象画像と前記発話対象画像位置情報に対応する対象の詳細情報を発話対象詳細情報として取得する対象詳細情報取得部と、
前記対象詳細情報取得部が取得した前記発話対象詳細情報を含む発話を前記システム発話として生成するシステム発話生成部と、
を有する対話システム。
【請求項2】
請求項1に記載の対話システムであって、
前記対象画像位置情報取得部は、
前記周囲画像位置情報記憶部に記憶された前記ユーザ発話以前の時刻の周囲画像から、前記ユーザ発話に含まれる対象に対応する画像である複数個の発話対象画像候補を取得し、
前記複数個の発話対象画像候補において差分がある特徴要素の具体内容を質問する発話である質問発話を生成し、
前記質問発話に対する前記ユーザの発話である回答発話に含まれる前記特徴要素の具体内容を特定する情報を選択情報として取得し、
前記複数個の発話対象画像候補のうちの前記選択情報に対応する発話対象画像候補を前記発話対象画像として取得し、
前記周囲画像位置情報記憶部から、前記発話対象画像に対応する位置情報である前記発話対象画像位置情報を取得する、
対話システム。
【請求項3】
移動体と共に移動している状況下での発話に含まれる対象の詳細情報である発話対象詳細情報を取得する情報取得装置であって、
各時刻に、前記移動体から撮影した画像である周囲画像を取得する周囲画像取得部と、
前記各時刻に、当該周囲画像を撮影した位置を特定する情報である位置情報を取得する位置情報取得部と、
前記周囲画像取得部が取得した周囲画像と、前記位置情報取得部が取得した位置情報と、を所定時間分記憶しておく周囲画像位置情報記憶部と、
前記周囲画像位置情報記憶部に記憶された前記発話以前の時刻の周囲画像から、前記発話に含まれる対象に対応する画像である発話対象画像を取得し、前記周囲画像位置情報記憶部から、前記発話対象画像に対応する位置情報である発話対象画像位置情報を取得する対象画像位置情報取得部と、
前記発話対象画像と前記発話対象画像位置情報に対応する対象の詳細情報を前記発話対象詳細情報として取得する対象詳細情報取得部と、
を有する情報取得装置。
【請求項4】
移動体と共に移動している状況下での発話に含まれる対象の詳細情報を取得するための検索クエリを生成するクエリ生成装置であって、
各時刻に、前記移動体から撮影した画像である周囲画像を取得する周囲画像取得部と、
前記各時刻に、当該周囲画像を撮影した位置を特定する情報である位置情報を取得する位置情報取得部と、
前記周囲画像取得部が取得した周囲画像と、前記位置情報取得部が取得した位置情報と、を所定時間分記憶しておく周囲画像位置情報記憶部と、
前記周囲画像位置情報記憶部に記憶された前記発話以前の時刻の周囲画像から、前記発話に含まれる対象に対応する画像である発話対象画像を取得し、前記周囲画像位置情報記憶部から、前記発話対象画像に対応する位置情報である発話対象画像位置情報を取得し、前記発話対象画像と前記発話対象画像位置情報を前記検索クエリとして出力する対象画像位置情報取得部と、
を有するクエリ生成装置。
【請求項5】
請求項1に記載の対話システムまたは請求項3に記載の情報取得装置または請求項4に記載のクエリ生成装置であって、
前記対象は、施設または所定の経路を移動する交通機関であり、
前記詳細情報は、前記対象の客観情報と主観情報との少なくとも何れかである。
【請求項6】
移動体と共に移動しているユーザによる発話であるユーザ発話に対する発話であるシステム発話を生成する対話システムが行う発話生成方法であって、
前記対話システムは、
各時刻に前記移動体から撮影した画像である周囲画像と、前記各時刻に当該周囲画像を撮影した位置を特定する情報である位置情報と、が所定時間分記憶された周囲画像位置情報記憶部を備え、
前記周囲画像位置情報記憶部に記憶された前記ユーザ発話以前の時刻の周囲画像から、前記ユーザ発話に含まれる対象に対応する画像である発話対象画像を取得し、前記周囲画像位置情報記憶部から、前記発話対象画像に対応する位置情報である発話対象画像位置情報を取得する対象画像位置情報取得ステップと、
前記発話対象画像と前記発話対象画像位置情報に対応する対象の詳細情報を発話対象詳細情報として取得する対象詳細情報取得ステップと、
前記対象詳細情報取得ステップで取得された前記発話対象詳細情報を含む発話を前記システム発話として生成するシステム発話生成ステップと、
を有する発話生成方法。
【請求項7】
移動体と共に移動している状況下での発話に含まれる対象の詳細情報である発話対象詳細情報を取得する情報取得装置が行う情報取得方法であって、
前記情報取得装置は、
各時刻に前記移動体から撮影した画像である周囲画像と、前記各時刻に当該周囲画像を撮影した位置を特定する情報である位置情報と、が所定時間分記憶された周囲画像位置情報記憶部を備え、
前記周囲画像位置情報記憶部に記憶された前記発話以前の時刻の周囲画像から、前記発話に含まれる対象に対応する画像である発話対象画像を取得し、前記周囲画像位置情報記憶部から、前記発話対象画像に対応する位置情報である発話対象画像位置情報を取得する対象画像位置情報取得ステップと、
前記発話対象画像と前記発話対象画像位置情報に対応する対象の詳細情報を前記発話対象詳細情報として取得する対象詳細情報取得ステップと、
を有する情報取得方法。
【請求項8】
移動体と共に移動している状況下での発話に含まれる対象の詳細情報を取得するための検索クエリを生成するクエリ生成装置が行うクエリ生成方法であって、
前記クエリ生成装置は、
各時刻に前記移動体から撮影した画像である周囲画像と、前記各時刻に当該周囲画像を撮影した位置を特定する情報である位置情報と、が所定時間分記憶された周囲画像位置情報記憶部を備え、
前記周囲画像位置情報記憶部に記憶された前記発話以前の時刻の周囲画像から、前記発話に含まれる対象に対応する画像である発話対象画像を取得し、前記周囲画像位置情報記憶部から、前記発話対象画像に対応する位置情報である発話対象画像位置情報を取得し、前記発話対象画像と前記発話対象画像位置情報を前記検索クエリとして出力する対象画像位置情報取得ステップと、
を有するクエリ生成方法。
【請求項9】
請求項6に記載の発話方法、請求項7に記載の情報取得方法または請求項8に記載のクエリ生成方法の各ステップをコンピュータに実行させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、移動している人の発話に含まれる対象に関する情報を取得する技術に関する。
【背景技術】
【0002】
特許文献1には、高齢者と好適なコミュニケーションをする雑談対話システムが記載されている。特許文献1の雑談対話システムは、高齢者であるユーザの周囲をカメラで撮影して得た画像に対して物体検知を行うことで、ユーザの周囲にある物体が何であるのかを特定して、特定した物体の情報に基づいて発話をする。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1の対話システムは、例えばユーザとロボットが同じ自動車に乗って移動しながら対話するなどの状況を想定したものではない。例えば、ユーザが「自転車が置いてあるおしゃれな雰囲気のカフェがさっきあったよね?」と対話システムに対して発話したとすると、ユーザが発話した時点ではその店はユーザの周囲に存在していないことから、ユーザの周囲をカメラで撮影して得た画像からその店を対話システムが特定することができず、その店に関する情報を取得できないことから、ユーザの発話に正しく応答する発話を対話システムが生成することができない。すなわち、特許文献1の対話システムには、ユーザが移動している場合には、発話に含まれる、ユーザの周囲に過去に存在していた対象、に関する情報を取得することができないという課題がある。
【0005】
本発明は、ユーザが移動している場合であっても、発話に含まれる、ユーザの周囲に過去に存在していた対象、に関する情報を取得する技術を提供することを目的とする。
【課題を解決するための手段】
【0006】
この発明の一態様による対話システムは、移動体と共に移動しているユーザによる発話であるユーザ発話に対する発話であるシステム発話を生成する対話システムであって、各時刻に、移動体から撮影した画像である周囲画像を取得する周囲画像取得部と、各時刻に、当該周囲画像を撮影した位置を特定する情報である位置情報を取得する位置情報取得部と、周囲画像取得部が取得した周囲画像と、位置情報取得部が取得した位置情報と、を所定時間分記憶しておく周囲画像位置情報記憶部と、周囲画像位置情報記憶部に記憶されたユーザ発話以前の時刻の周囲画像から、ユーザ発話に含まれる対象に対応する画像である発話対象画像を取得し、周囲画像位置情報記憶部から、発話対象画像に対応する位置情報である発話対象画像位置情報を取得する対象画像位置情報取得部と、発話対象画像と発話対象画像位置情報に対応する対象の詳細情報を発話対象詳細情報として取得する対象詳細情報取得部と、対象詳細情報取得部が取得した発話対象詳細情報を含む発話をシステム発話として生成するシステム発話生成部と、を有する。
【0007】
この発明の一態様による情報取得装置は、移動体と共に移動している状況下での発話に含まれる対象の詳細情報である発話対象詳細情報を取得する情報取得装置であって、各時刻に、移動体から撮影した画像である周囲画像を取得する周囲画像取得部と、各時刻に、当該周囲画像を撮影した位置を特定する情報である位置情報を取得する位置情報取得部と、周囲画像取得部が取得した周囲画像と、位置情報取得部が取得した位置情報と、を所定時間分記憶しておく周囲画像位置情報記憶部と、周囲画像位置情報記憶部に記憶された発話以前の時刻の周囲画像から、発話に含まれる対象に対応する画像である発話対象画像を取得し、周囲画像位置情報記憶部から、発話対象画像に対応する位置情報である発話対象画像位置情報を取得する対象画像位置情報取得部と、発話対象画像と発話対象画像位置情報に対応する対象の詳細情報を発話対象詳細情報として取得する対象詳細情報取得部と、を有する。
【0008】
この発明の一態様によるクエリ生成装置は、移動体と共に移動している状況下での発話に含まれる対象の詳細情報を取得するための検索クエリを生成するクエリ生成装置であって、各時刻に、移動体から撮影した画像である周囲画像を取得する周囲画像取得部と、各時刻に、当該周囲画像を撮影した位置を特定する情報である位置情報を取得する位置情報取得部と、周囲画像取得部が取得した周囲画像と、位置情報取得部が取得した位置情報と、を所定時間分記憶しておく周囲画像位置情報記憶部と、周囲画像位置情報記憶部に記憶された発話以前の時刻の周囲画像から、発話に含まれる対象に対応する画像である発話対象画像を取得し、周囲画像位置情報記憶部から、発話対象画像に対応する位置情報である発話対象画像位置情報を取得し、発話対象画像と発話対象画像位置情報を検索クエリとして出力する対象画像位置情報取得部と、を有する。
【発明の効果】
【0009】
本発明によれば、ユーザが移動している場合であっても、発話に含まれる、ユーザの周囲に過去に存在していた対象、に関する情報を取得することができる。
【図面の簡単な説明】
【0010】
【
図1】
図1は、対話システム及び情報取得装置及びクエリ生成装置の機能構成を例示したブロック図である。
【
図2】
図2は、対話システム及び情報取得装置及びクエリ生成装置が周囲画像と位置情報を取得する処理を示す流れ図である。
【
図3】
図3は、対話システムが行う発話生成方法、情報取得装置が行う情報取得方法、クエリ生成装置が行うクエリ生成方法の処理を示す流れ図である。
【
図4】
図4は、第2実施形態の対象画像位置情報取得部の機能構成を例示したブロック図である。
【
図5】
図5は、第2実施形態の対象画像位置情報取得部の処理を示す流れ図である。
【
図6】
図6は、対話システム及び情報取得装置及びクエリ生成装置を実現するコンピュータの機能構成の一例を示す図である。
【発明を実施するための形態】
【0011】
<第1実施形態>
第1実施形態の対話システム300は、例えば
図1に示すように、ユーザ発話取得部310、周囲画像取得部320、位置情報取得部330、システム発話生成部340、システム発話出力部350、対象表現取得部110、周囲画像位置情報記憶部120、対象画像位置情報取得部130、対象詳細情報取得部210、情報検索部220を含む。ただし、後述するように、
図1に破線で示したユーザ発話取得部310、周囲画像取得部320、位置情報取得部330、対象表現取得部110、情報検索部220、システム発話出力部350が対話システム300に含まれるのは必須ではない。
【0012】
対話システム300が行う発話生成方法は、移動体と共に移動しているユーザによる発話に対して対話システム300が行う発話を生成して出力するものである。以下では、ユーザが発声した音声に含まれる発話を「ユーザ発話」とよび、ユーザ発話に対して対話システム300が行う発話を「システム発話」とよぶ。発話生成方法は、対話システム300が
図3に示すステップS310、S110、S130、S210、S340、S350の処理を行うことにより例えば実現される。ただし、後述するように、
図3に破線で示したステップS310、S110、S350の処理が発話生成方法に含まれるのは必須ではない。また、発話生成方法を実現するために記憶しておくことが必要な情報を取得する処理、具体的には、ユーザが過去にいた位置と当該位置から見える風景の画像を取得する処理は、対話システム300が
図2に示すステップS320、S330、S120を行うことにより例えば実現される。
【0013】
まず、ユーザが過去にいた位置と当該位置から見える風景の画像を対話システム300が取得する処理に関連する各構成部と当該各構成部の処理について説明する。
【0014】
[周囲画像取得部320]
周囲画像取得部320は、所定の時間間隔T0の各時刻において、ユーザの周囲の風景の画像である周囲画像を取得する(ステップS320)。周囲画像は、ユーザが過去にいた位置から見える風景の画像であり、上述したようにユーザは移動体と共に移動しているので、ユーザと共に移動する移動体の周囲の風景の画像であり、例えば、ユーザと共に移動する移動体から撮影した画像である。周囲画像取得部320としては、ユーザと共に移動する移動体に備えられた周知のカメラが用いられればよく、例えば、一般的な動画におけるフレーム間隔T0で画像を撮影するカメラが用いられればよい。周囲画像取得部320によって取得された各時刻の周囲画像は、周囲画像位置情報記憶部120に対して出力される。
【0015】
例えば、対話システム300が自動車に備えられるものであり当該自動車の運転者をユーザとするものである場合であれば、周囲画像取得部320は、当該自動車の運転席からフロントガラスを介して見える風景の画像を周囲画像として撮影すればよい。例えば、対話システム300が自動車に備えられるものであり当該自動車に乗っている運転者以外の人をユーザとするものである場合であれば、周囲画像取得部320は、当該自動車のすべての窓を介して見える周囲360度の風景の画像を周囲画像として撮影すればよい。
【0016】
周囲画像取得部320の機能は対話システム300とは異なる周知の装置でも実現できる。したがって、対話システム300には周囲画像取得部320を備えずに、周囲画像取得部320の機能を備えた他の装置から対話システム300に周囲画像が入力されるようにしてもよい。または、周囲画像取得部320が、他の装置から周囲画像の入力を受け付けることにより周囲画像を取得して、取得した周囲画像をそのまま出力するものであってもよい。
【0017】
[位置情報取得部330]
位置情報取得部330は、周囲画像取得部320が周囲画像を取得する各時刻において、ユーザの位置情報を取得する(ステップS330)。位置情報は、ユーザが過去にいた位置を特定する情報であり、上述したようにユーザは移動体と共に移動しているので、ユーザと共に移動する移動体の位置を特定する情報であり、例えば、移動体から周囲画像を撮影した位置を特定する情報である。位置情報取得部330としては、周知のGPS受信ユニットが用いられればよい。例えば、対話システム300が自動車に備えられるものである場合であれば、位置情報取得部330は当該自動車の位置情報を取得すればよい。位置情報取得部330によって取得された各時刻の位置情報は、周囲画像位置情報記憶部120に対して出力される。
【0018】
位置情報取得部330の機能は対話システム300とは異なる周知の装置でも実現できる。したがって、対話システム300には位置情報取得部330を備えずに、位置情報取得部330の機能を備えた他の装置から対話システム300に位置情報が入力されるようにしてもよい。または、位置情報取得部330が、他の装置から位置情報の入力を受け付けることにより位置情報を取得して、取得した位置情報をそのまま出力するものであってもよい。
【0019】
[周囲画像位置情報記憶部120]
周囲画像位置情報記憶部120には、周囲画像取得部320で周囲画像が取得された各時刻の、周囲画像取得部320によって取得された周囲画像または対話システム300に入力された周囲画像と、位置情報取得部330によって取得された位置情報または対話システム300に入力された位置情報と、が入力される。周囲画像位置情報記憶部120は、各時刻の周囲画像と位置情報による組を記憶する(ステップS120)。すなわち、周囲画像位置情報記憶部120は、ユーザ発話が行われた時刻の周囲画像と位置情報による組だけではなく、ユーザ発話が行われるよりも前の(すなわち、ユーザ発話よりも過去の)周囲画像と位置情報による組も記憶する。
【0020】
周囲画像位置情報記憶部120が各時刻の周囲画像と位置情報による組を記憶する際には、他の情報も組に含めてもよい。すなわち、周囲画像位置情報記憶部120は、各時刻の周囲画像と位置情報を少なくとも含む組を記憶すればよい。
【0021】
例えば、周囲画像位置情報記憶部120は、周囲画像を取得した時刻を表す情報、および/または、周囲画像を取得した順序を特定する情報、を各時刻の周囲画像と位置情報と組にして記憶してもよい。周囲画像を取得した時刻を表す情報は、対話システム300に内蔵された図示しない時計から取得されるようにしてもよいし、位置情報取得部330から入力されるようにしてもよい。周囲画像を取得した時刻を表す情報が位置情報取得部330から入力されるようにする場合には、GPSユニットである位置情報取得部330が位置情報を取得した時刻を表す情報も出力するようにすればよい。
【0022】
周囲画像位置情報記憶部120は、周囲画像と位置情報を少なくとも含む組を最新のものから所定時間T1分だけを記憶しておくようにしてもよい。周囲画像位置情報記憶部120が周囲画像と位置情報を少なくとも含む組を最新のものから所定時間T1分だけ記憶しておくためには、周囲画像を取得した時刻を表す情報、および/または、周囲画像を取得した順序を特定する情報、を用いればよい。所定時間T1は、人が移動体と共に移動している状況において、過去に見た風景に基づく発話を人が行う可能性が高い時間範囲、として予め実験等により定められた時間とすればよい。
【0023】
次に、対話システム300が行う発話生成方法に関連する各構成部と各構成部の処理について説明する。
【0024】
[ユーザ発話取得部310]
ユーザ発話取得部310は、ユーザが発声した音声に含まれる発話(すなわち、ユーザ発話)を表すテキストであるユーザ発話テキストを取得する(ステップS310)。ユーザ発話取得部310によって取得されたユーザ発話テキストは対象表現取得部110とシステム発話生成部340に対して出力される。
【0025】
ユーザ発話取得部310は周知の技術によって実現されればよい。例えば、ユーザ発話取得部310は、マイクロホンとAD変換器と音声区間検出器と音声認識器と認識結果解析器により構成される。マイクロホンは、マイクロホンの周辺の空間領域で発生した音を収音してアナログの電気信号に変換してAD変換器に出力する。AD変換器は、入力されたアナログの電気信号をディジタル音信号に変換して出力する。音声区間検出器は、ディジタル音信号に含まれる音声区間を検出して、音声区間のディジタル音信号を出力する。音声認識器は、音声区間のディジタル音信号に対して音声認識処理をすることで音声認識結果を得て出力する。認識結果解析器は、音声認識結果に対して形態素解析などを行うことで発話内容を表すテキストであるユーザ発話テキストを得る。ユーザ発話取得部310は、後述するシステム発話出力部360がシステム発話の音声を出力している間はAD変換器と音声認識器と認識結果解析器の少なくとも何れかが動作しないようにされていたり、マイクロホンの指向性がユーザの口の位置に向けられていたりすることにより、後述するシステム発話の音声に含まれる発話内容などはユーザ発話テキストとして取得しないようにされており、ユーザが発声した音声に含まれる発話を表すテキストのみをユーザ発話テキストとして取得するようにされている。
【0026】
上述したようにユーザ発話取得部310を実現する技術は周知であり、ユーザ発話取得部310の機能は他の装置でも実現できることから、対話システム300にはユーザ発話取得部310を備えずに、ユーザ発話取得部310の機能を備えた他の装置から対話システム300にユーザ発話テキストが入力されるようにしてもよい。または、ユーザ発話取得部310は、他の装置からユーザ発話テキストの入力を受け付けることによりユーザ発話テキストを取得して、ユーザ発話テキストをそのまま出力するようにしてもよい。
【0027】
[対象表現取得部110]
対象表現取得部110には、ユーザ発話取得部310によって取得されたユーザ発話テキストまたは対話システム300に入力されたユーザ発話テキストが入力される。対象表現取得部110は、ユーザ発話テキストに含まれる対象についての表現を取得する(ステップS110)。「対象」とは、風景に含まれるもののうち、位置に紐づけられたもののことである。例えば、建造物や特徴的な地形などは、移動せずに同じ位置にあることから、位置に紐づけられたものであり、「対象」である。また例えば、列車などの所定の経路を移動する交通機関は、移動の範囲が所定の経路内に留まることから、位置に紐づけられたものであり、「対象」である。「ユーザ発話テキストに含まれる対象についての表現」とは、ユーザ発話テキストにおいて対象を表すために用いられている部分テキストまたは埋め込みベクトルである。
【0028】
以下では、ユーザ発話テキストに含まれる対象のことを「発話対象」とよび、発話対象についての表現のことを「発話対象表現」とよぶ。対象表現取得部110によって取得された発話対象表現は、対象画像位置情報取得部130に対して出力される。
【0029】
例えば、ユーザ発話テキストが「自転車が置いてあるおしゃれな雰囲気のカフェがさっきあったよね?」である場合であれば、発話対象は「カフェ」であり、発話対象表現の例は、発話対象を表現する部分テキストである「カフェ」、「自転車が置いてある」、「おしゃれな雰囲気の」である。
【0030】
なお、後述する対象画像位置情報取得部130で用いる入力された発話対象表現に対応する画像領域を特定する技術次第では、ユーザ発話テキストそのものを発話対象表現として取得してもよい。すなわち、対話システム300に対象表現取得部110を備えるのは必須ではない。
【0031】
[対象画像位置情報取得部130]
対象画像位置情報取得部130には、対象表現取得部110によって取得された発話対象表現が入力される。対象画像位置情報取得部130は、周囲画像位置情報記憶部120に記憶されている周囲画像から、発話対象表現に対応する画像を発話対象画像として取得し、周囲画像位置情報記憶部120から、発話対象画像に対応する位置情報を発話対象画像位置情報として取得する(ステップS130)。なお、上述したように表現発話対象表現はユーザ発話テキストに含まれる対象についての表現であるので、対象画像位置情報取得部130が取得する発話対象画像は、ユーザ発話テキストに含まれる対象に対応する画像である。対象画像位置情報取得部130によって取得された発話対象画像と発話対象画像位置情報は、対象詳細情報取得部210に対して出力される。
【0032】
例えば、対象画像位置情報取得部130は、入力された発話対象表現に最も対応している画像領域を複数個の画像の中から特定する周知技術を用いて、周囲画像位置情報記憶部120に記憶されている複数個の周囲画像から、発話対象表現に最も対応する周囲画像の部分領域を発話対象画像として取得し、取得した発話対象画像が部分領域となっている周囲画像と組にされて周囲画像位置情報記憶部120に記憶されている位置情報を発話対象画像位置情報として取得する。
【0033】
なお、対象画像位置情報取得部130が取得する発話対象画像は1個である必要はなく複数個であってもよい。すなわち、対象画像位置情報取得部130は、周囲画像位置情報記憶部120に記憶されている周囲画像から、発話対象表現に対応するN個(Nは1以上の整数)の画像であるN個の発話対象画像と、発話対象画像それぞれに対応する位置情報によるN個の発話対象画像位置情報と、を取得するものであればよい。例えば、対象画像位置情報取得部130は、入力されたテキストや埋め込みベクトルと、複数個の画像に含まれる画像領域と、の間の対応度合いを評価する周知技術を用いて、周囲画像位置情報記憶部120に記憶されている複数個の周囲画像から、発話対象表現に最も対応する周囲画像の部分領域から順にN個の画像領域をN個の発話対象画像として取得し、取得したN個の発話対象画像それぞれが部分領域となっている周囲画像と組にされて周囲画像位置情報記憶部120に記憶されている位置情報をN個の発話対象画像位置情報として取得する。
【0034】
周囲画像位置情報記憶部120に記憶されている複数個の周囲画像は、ユーザ発話以前の互いに異なる時刻の周囲画像である。すなわち、対象画像位置情報取得部130が取得する発話対象画像は、ユーザ発話以前の何れかの時刻の周囲画像の部分画像である。
【0035】
各周囲画像と組にされて周囲画像位置情報記憶部120に記憶されている位置情報は、各周囲画像を撮影した位置を特定する情報である。すなわち、対象画像位置情報取得部130が取得する発話対象画像位置情報は、発話対象画像を撮影した位置を特定する情報である。
【0036】
例えば、発話対象表現が「自転車が置いてある」と「おしゃれな雰囲気の」と「カフェ」というテキストである場合であれば、対象画像位置情報取得部130は、「自転車が置いてある」と「おしゃれな雰囲気の」と「カフェ」に最も対応している周囲画像の画像領域、すなわち、自転車が置いてあるおしゃれな雰囲気のカフェを含む画像、を発話対象画像として取得し、自転車が置いてあるおしゃれな雰囲気のカフェを含む画像である発話対象画像を撮影した位置を特定する情報である例えば北緯35.3xx度、東経139.5xx度を発話対象画像位置情報として取得する。なお、前述した"xx"は、小数第二位以降が存在してもよいことを示す表記である。
【0037】
[対象詳細情報取得部210]
対象詳細情報取得部210には、対象画像位置情報取得部130によって取得された発話対象画像と、対象画像位置情報取得部130によって取得された発話対象画像位置情報と、が入力される。対象詳細情報取得部210は、発話対象画像と発話対象画像位置情報に対応する対象の詳細情報を発話対象詳細情報として取得する(ステップS210)。対象詳細情報取得部210が発話対象画像と発話対象画像位置情報に対応する発話対象詳細情報を取得する際には、発話対象画像と発話対象画像位置情報を検索クエリとして、入力された検索クエリに対応する対象の詳細情報を出力する情報検索部220を用いればよい。情報検索部220については後述する。対象詳細情報取得部210によって取得された発話対象詳細情報はシステム発話生成部340に対して出力される。
【0038】
対象の詳細情報とは、対象の名称、対象が属するカテゴリ、対象の位置を特定する情報、対象と他の対象との相対位置関係を表す情報、対象に対して人が評価した情報、などのことである。例えば、対象がカフェなどの店であれば、営業時間やメニューなども対象の詳細情報である。例えば、対象が史跡であれば、由来なども対象の詳細情報である。すなわち、対象の「詳細情報」とは、対象の客観情報と主観情報の少なくとも何れかである。例えば、対象が由比ヶ浜にある海に面した眺めがよい紅茶がおいしいカフェであるABCという名称の店であれば、対象の名称である「ABC」、対象が属するカテゴリである「カフェ」、対象の位置を特定する情報である「由比ヶ浜」、対象と他の対象との相対位置関係を表す情報である「海に面した」、などが対象の客観情報の例であり、「眺めがよい」、「紅茶がおいしい」、などが対象の主観情報の例である。
【0039】
例えば、発話対象画像が自転車が置いてあるおしゃれな雰囲気のカフェを含む画像であり、発話対象画像位置情報が北緯35.3xx度、東経139.5xx度である場合であれば、対象詳細情報取得部210は、発話対象画像と発話対象画像位置情報に対応する対象である店ABCの詳細情報である「ABC」、「カフェ」、「由比ヶ浜」、「海に面した」、「眺めがよい」、「紅茶がおいしい」などを発話対象詳細情報として取得する。
【0040】
すなわち、対象詳細情報取得部210によれば、発話対象画像のみからは得ることができない発話対象についての情報を、発話対象画像と発話対象画像位置情報を検索クエリとして情報検索部220に入力して、検索クエリに対応する対象の詳細情報を情報検索部220から取得することによって、得ることができる。
【0041】
[情報検索部220]
情報検索部220は、上述したように、発話対象画像と発話対象画像位置情報を検索クエリとして、入力された検索クエリに対応する対象の詳細情報を出力する(ステップS220)。情報検索部220は、前述した機能を有するものであればどのようなものであってもよいが、大規模なデータベースを備える必要があることから、Google(登録商標) Maps Platformなどのように、入力された画像と位置情報を用いて、入力された画像と位置情報に対応する対象の詳細情報などを検索して抽出できるサービスシステム(以下、便宜的に「地図情報サービスシステム」とよぶ)を用いて実現するとよい。すなわち、対話システム300には情報検索部220を備えないでもよい。
【0042】
なお、情報検索部220が下記のステップS220-1からステップS220-3を行うようにすると、入力された発話対象画像と発話対象画像位置情報に対応する対象の詳細情報を精度良く取得することができる。
【0043】
まず、情報検索部220は、発話対象画像位置情報から所定の範囲内にある対象の画像を地図情報サービスシステムから取得する(ステップS220-1)。所定の範囲の例は、所定の距離の範囲であり、半径50メートルの範囲などである。次に、情報検索部220は、ステップS220-1で取得された画像のうち発話対象画像と類似度が最も高い画像を特定する(ステップS220-2)。次に、情報検索部220は、ステップS220-2で特定された画像が対応付けられた対象の詳細情報を地図情報サービスシステムから取得する(ステップS220-3)。
【0044】
上述したように発話対象画像は周囲画像の部分領域の画像であるので、発話対象画像に含まれるのは対象の外観の画像である。また、ステップS220-1の処理で取得された対象の画像は、ステップS220-2の処理において、発話対象画像との類似度が高いものを特定するために用いられるものである。そこで、情報検索部220は、ステップS220-1の処理では、発話対象画像位置情報から所定の範囲内にある対象の画像のうちの、対象の外観を表す画像のみを地図情報サービスシステムから取得するようにしてもよい。
【0045】
また、発話対象画像は周囲画像の部分領域であるので、当該周囲画像を周囲画像取得部320が移動体からの撮影した方向に基づいて、発話対象画像位置情報によって特定される位置に対する発話対象画像の方向を特定できる。そこで、情報検索部220は、ステップS220-1の処理における所定の範囲を、周囲画像取得部320が移動体から周囲画像を撮影した方向から特定される発話対象画像の方向、当該発話対象画像の方向を含む所定の視角の範囲、当該発話対象画像の方向かつ所定の距離の範囲、当該発話対象画像の方向を含む所定の視角の範囲かつ所定の距離の範囲、などとしてもよい。
【0046】
Google(登録商標) Maps Platformなどの地図情報サービスシステムには、世界中にある様々な対象の画像が記憶されている。したがって、発話対象画像をクエリとして地図情報サービスシステムで検索を行うと、発話対象画像と類似度が最も高い画像として所望の対象の画像が特定されるとは限らない。しかし、ステップS220-2のように所定の範囲内にある対象の画像を候補として発話対象画像と類似度が最も高い画像を特定すれば、所望の対象の画像が特定される可能性が高い。したがって、ステップS220-3によって所望の対象の詳細情報を精度良く取得できる。
【0047】
[システム発話生成部340]
システム発話生成部340には、ユーザ発話取得部310によって取得されたユーザ発話テキストと、対象表現取得部110によって取得された発話対象表現と、対象詳細情報取得部210によって取得された発話対象詳細情報と、が入力される。システム発話生成部340は、発話対象詳細情報を少なくとも含む発話のテキストをシステム発話テキストとして生成する(ステップS340)。システム発話生成部340によって生成されたシステム発話テキストはシステム発話出力部350に対して出力される。
【0048】
システム発話テキストは、ユーザ発話に対して対話システム300が行うシステム発話のテキストである。すなわち、システム発話テキストには、ユーザ発話テキストに対する応答の発話のテキストも含まれるべきである。したがって、システム発話生成部340は、ユーザ発話テキストに対して応答する発話であり、かつ、発話対象詳細情報を用いて発話対象を説明する発話のテキストをシステム発話テキストとして生成するのがよい。上述した例であれば、システム発話生成部340は、例えば、「さっきのカフェってABCってお店みたい。紅茶がおいしいらしいよ。」というシステム発話テキストを生成すればよい。
【0049】
[システム発話出力部350]
システム発話出力部350には、システム発話生成部340が生成したシステム発話テキストが入力される。システム発話出力部350は、システム発話テキストの音声であるシステム発話を出力する(ステップS350)。
【0050】
システム発話出力部350は周知の技術によって実現されればよい。例えば、システム発話出力部350は、音声合成器とDA変換器とスピーカにより構成される。音声合成器はシステム発話テキストに対して音声合成処理をすることでシステム発話テキストに対応するディジタル音信号を得る。DA変換器は、入力されたディジタル音信号をアナログの電気信号に変換して出力する。スピーカは、入力されたアナログの電気信号を空気振動に変換してスピーカ周辺の空間領域に放音する。
【0051】
上述したようにシステム発話出力部350を実現する技術は周知であり、システム発話出力部350の機能は他の装置でも実現できることから、対話システム300にはシステム発話出力部350を備えずに、システム発話出力部350の機能を備えた他の装置に対して対話システム300がシステム発話テキストを出力するようにしてもよい。または、システム発話出力部350は、システム発話生成部340からシステム発話テキストの入力を受け付けて、システム発話テキストをそのまま他の装置に対して出力するようにしもよい。
【0052】
<第2実施形態>
対象画像位置情報取得部130は、周囲画像位置情報記憶部120に記憶されている周囲画像から、発話対象表現に対応するN’個(N’は2以上の整数)の画像を発話対象画像候補として取得して、N’個の発話対象画像候補のうちのN個(Nは、1以上の整数であり、N’より小さい整数)をユーザの発話を用いて選択することで、N個の発話対象画像を取得するようにしてもよい。この形態を第2実施形態として、第1実施形態と異なる点を中心に説明する。
【0053】
第2実施形態の対象画像位置情報取得部130は、例えば
図4に示すように、発話対象画像候補取得部1301、質問発話生成部1302、選択情報取得部1303、発話対象画像取得部1304、発話対象画像位置情報取得部1305を含む。第2実施形態の対象画像位置情報取得部130の処理は、対象画像位置情報取得部130が例えば
図5に示すステップS1301、S1302、S1303、S1304、S1305の処理を行うことにより例えば実現される。なお、対象画像位置情報取得部130が行うステップS1302の処理とS1303の処理の間では、システム発話出力部350が
図5に破線で示すステップS350Aの処理を行い、続いて、ユーザ発話取得部310が
図5に破線で示すステップS310Aの処理を行う。
【0054】
[発話対象画像候補取得部1301]
発話対象画像候補取得部1301には、対象表現取得部110によって取得された発話対象表現が入力される。発話対象画像候補取得部1301は、周囲画像位置情報記憶部120に記憶されている周囲画像から、発話対象表現に対応するN’個の画像を発話対象画像候補として取得する(ステップS1301)。例えば、発話対象画像候補取得部1301は、入力されたテキストや埋め込みベクトルと、複数個の画像に含まれる画像領域と、の間の対応度合いを評価する技術を用いて、周囲画像位置情報記憶部120に記憶されている複数個の周囲画像から、発話対象表現に最も対応する周囲画像の部分領域から順にN’個の画像領域をN’個の発話対象画像候補として取得する。発話対象画像候補取得部1301によって取得されたN’個の発話対象画像候補は、質問発話生成部1302と発話対象画像取得部1304に対して出力される。
【0055】
[質問発話生成部1302]
質問発話生成部1302には、発話対象画像候補取得部1301によって取得されたN’個の発話対象画像候補が入力される。質問発話生成部1302は、N’個の発話対象画像候補において差分がある特徴要素の具体内容について質問する発話のテキストである質問発話テキストを生成する(ステップS1302)。例えば、質問発話生成部1302は、N’個の発話対象画像候補における文言表現可能な特徴要素の差分を評価して、N’個の発話対象画像候補において差分が最大のものからM種類(Mは1以上の整数)の文言表現可能な特徴要素を特定し、特定した特徴要素の具体内容について質問する発話のテキストである質問発話テキストを生成する。例えば、発話対象画像候補が赤い屋根のカフェの画像と青い屋根のカフェの画像である場合であれば、質問発話生成部1302は、「赤い屋根と青い屋根のどっち?」や「屋根はどんな色だった?」などの質問発話テキストを生成する。質問発話生成部1302によって生成された質問発話テキストは、
図1に二点鎖線で示すようにシステム発話出力部350に対して出力される。
【0056】
[システム発話出力部350]
システム発話出力部350には、質問発話生成部1302が生成した質問発話テキストとシステム発話生成部340が生成したシステム発話テキストが入力される。システム発話出力部350は、質問発話テキストが入力された場合には、質問発話テキストの音声である質問発話を出力する(ステップS350A)。システム発話出力部350は、システム発話テキスト入力された場合には、第1実施形態と同様に、システム発話テキストの音声であるシステム発話を出力する(ステップS350)。
【0057】
図1に破線で示すように、対話システム300にはシステム発話出力部350を備えないようにしてもよい。この場合には、質問発話生成部1302によって生成された質問発話テキストとシステム発話生成部340によって生成されたシステム発話テキストを、システム発話出力部350の機能を備えた他の装置に対する対話システム300の出力としてもよい。または、システム発話出力部350は、質問発話生成部1302からの質問発話テキストの入力と、システム発話生成部340からのシステム発話テキストの入力と、を受け付けて、質問発話テキストとシステム発話テキストをそのまま他の装置に対して出力するようにしてもよい。
【0058】
[ユーザ発話取得部310]
ユーザ発話取得部310は、質問発話に対してユーザが発声した場合には、ユーザが発声した音声に含まれる発話を表すテキストを回答発話テキストとして取得する(ステップS310A)。ユーザ発話取得部310は、質問発話に対してユーザが発声した場合以外には、第1実施形態と同様に、ユーザが発声した音声に含まれる発話を表すテキストをユーザ発話テキストとして取得する(ステップS310)。例えば、ユーザ発話取得部310は、対話システム300が質問発話を出力してから所定時間以内に発せられた音声に含まれる発話を質問発話テキストとして取得し、それ以外の音声に含まれる発話をユーザ発話テキストとして取得する。ユーザ発話取得部310によって取得された回答発話テキストは、
図1に二点鎖線で示すように対象画像位置情報取得部130に対して、より具体的には対象画像位置情報取得部130に含まれる選択情報取得部1303に対して、出力される。ユーザ発話取得部310によって取得されたユーザ発話テキストは、対象表現取得部110とシステム発話生成部340に対して出力される。
【0059】
図1に破線で示すように、対話システム300にはユーザ発話取得部310を備えないようにしてもよい。この場合には、ユーザ発話取得部310の機能を備えた他の装置から対話システム300に回答発話テキストとユーザ発話テキストが入力されるようにすればよい。または、ユーザ発話取得部310は、他の装置から回答発話テキストとユーザ発話テキストの入力を受け付けることにより回答発話テキストとユーザ発話テキストを取得して、回答発話テキストとユーザ発話テキストをそのまま出力するようにしもよい。
【0060】
[選択情報取得部1303]
選択情報取得部1303には、ユーザ発話取得部310で取得された回答発話テキストまたは対話システム300に入力された回答発話テキストが入力される。選択情報取得部1303は、回答発話テキストから特徴要素の具体内容を特定する情報を選択情報として生成する(ステップS1303)。例えば、「赤い屋根と青い屋根のどっち?」や「屋根はどんな色だった?」などの質問発話に対する回答発話テキストが「赤い屋根のほうだよ。」や「赤だったよ。」であった場合であれば、選択情報取得部1303は、屋根が赤いことを特定する選択情報を生成する。選択情報取得部1303によって生成された選択情報は、発話対象画像取得部1304に対して出力される。
【0061】
[発話対象画像取得部1304]
発話対象画像取得部1304には、発話対象画像候補取得部1301で取得されたN’個の発話対象画像候補と、選択情報取得部1303で生成された選択情報と、が入力される。発話対象画像取得部1304は、N’個の発話対象画像候補のうちの選択情報に対応する発話対象画像候補を発話対象画像として取得する(ステップS1304)。N’個の発話対象画像候補のうちの選択情報に対応する発話対象画像候補の個数が、発話対象画像の個数であり、Nとなる。例えば、発話対象画像候補が赤い屋根のカフェの画像と青い屋根のカフェの画像であって、選択情報が屋根が赤いことを特定する場合であれば、発話対象画像取得部1304は、発話対象画像候補のうちの赤い屋根のカフェの画像を発話対象画像として取得する。発話対象画像取得部1304によって取得された発話対象画像は、発話対象画像位置情報取得部1305と対象詳細情報取得部210に対して出力される。
【0062】
[発話対象画像位置情報取得部1305]
発話対象画像位置情報取得部1305には、発話対象画像取得部1304によって取得されたN個の発話対象画像が入力される。発話対象画像位置情報取得部1305は、周囲画像位置情報記憶部120から、N個の発話対象画像それぞれが部分領域となっている周囲画像と組にされて周囲画像位置情報記憶部120に記憶されている位置情報を発話対象画像位置情報として取得する(ステップS1305)。発話対象画像位置情報取得部1305によって取得された発話対象画像位置情報は、対象詳細情報取得部210に対して出力される。
【0063】
<第3実施形態>
対話システム300の主要な構成部を用いれば、ユーザ発話の入力を受け付けて発話対象詳細情報を取得して出力する情報取得装置200を実現することができる。第3実施形態ではこの情報取得装置200について説明する。
【0064】
第3実施形態の情報取得装置200は、例えば
図1に示すように、ユーザ発話取得部310、周囲画像取得部320、位置情報取得部330、対象表現取得部110、周囲画像位置情報記憶部120、対象画像位置情報取得部130、対象詳細情報取得部210、情報検索部220を含む。ただし、
図1に破線で示したユーザ発話取得部310、周囲画像取得部320、位置情報取得部330、対象表現取得部110、情報検索部220が情報取得装置200に含まれるのは必須ではない。
【0065】
情報取得装置200が行う情報取得方法は、移動体と共に移動しているユーザによる発話に含まれる対象の詳細情報を取得して出力するものである。情報取得方法は、情報取得装置200が
図3に示すステップS310、S110、S130、S210の処理を行うことにより例えば実現される。ただし、
図3に破線で示したステップS310、S110の処理が情報取得方法に含まれるのは必須ではない。また、情報取得方法を実現するために記憶しておくことが必要な情報を取得する処理、具体的には、ユーザが過去にいた位置と当該位置から見える風景の画像を取得する処理は、情報取得装置200が
図2に示すステップS320、S330、S120を行うことにより例えば実現される。情報取得装置200の各構成部と当該各構成部が行う処理は第1実施形態及び第2実施形態で説明した通りである。
【0066】
なお、第3実施形態の情報取得装置200及び情報取得方法は、移動体と共に移動しているユーザによる発話に限らず、移動体と共に移動している主体による発話、例えば、移動体とユーザと共に移動している対話システム300による発話、に含まれる対象の詳細情報を取得して出力するようにしてもよい。言い換えると、第3実施形態の情報取得装置200及び情報取得方法は、移動体と共に移動している状況下の発話に含まれる対象の詳細情報を取得して出力するものであってもよい。この場合には、上述した各部の処理を、ユーザ発話に代えて、移動体と共に移動している主体による発話、すなわち、移動体と共に移動している状況下の発話、言い換えると、移動体と共に移動している状況において行われた発話、を用いて行えばよい。
【0067】
<第4実施形態>
対話システム300の主要な構成部を用いれば、ユーザ発話の入力を受け付けて発話対象に関する情報を検索するためのクエリを生成して出力するクエリ生成装置100を実現することができる。第4実施形態ではこのクエリ生成装置100について説明する。
【0068】
第4実施形態のクエリ生成装置100は、例えば
図1に示すように、ユーザ発話取得部310、周囲画像取得部320、位置情報取得部330、対象表現取得部110、周囲画像位置情報記憶部120、対象画像位置情報取得部130を含む。ただし、
図1に破線で示したユーザ発話取得部310、周囲画像取得部320、位置情報取得部330、対象表現取得部110がクエリ生成装置100に含まれるのは必須ではない。
【0069】
クエリ生成装置100が行うクエリ生成方法は、移動体と共に移動しているユーザによる発話に含まれる対象に関する情報を検索するためのクエリを生成して出力するものである。クエリ生成方法は、クエリ生成装置100が
図3に示すステップS310、S110、S130の処理を行うことにより例えば実現される。ただし、
図3に破線で示したステップS310、S110の処理がクエリ生成方法に含まれるのは必須ではない。また、クエリ生成方法を実現するために記憶しておくことが必要な情報を取得する処理、具体的には、ユーザが過去にいた位置と当該位置から見える風景の画像を取得する処理は、クエリ生成装置100が
図2に示すステップS320、S330、S120を行うことにより例えば実現される。クエリ生成装置100の各構成部と当該各構成部が行う処理は第1実施形態及び第2実施形態で説明した通りである。
【0070】
なお、第4実施形態のクエリ生成装置100及びクエリ生成方法は、移動体と共に移動しているユーザによる発話に限らず、移動体と共に移動している主体による発話、例えば、移動体とユーザと共に移動している対話システム300による発話、に含まれる対象に関する情報を検索するためのクエリを生成して出力するようにしてもよい。言い換えると、第4実施形態のクエリ生成装置100及びクエリ生成方法は、移動体と共に移動している状況下の発話に含まれる対象に関する情報を検索するためのクエリを生成して出力するものであってもよい。この場合には、上述した各部の処理を、ユーザ発話に代えて、移動体と共に移動している主体による発話、すなわち、移動体と共に移動している状況下の発話、言い換えると、移動体と共に移動している状況において行われた発話、を用いて行えばよい。
【0071】
<補記>
上述した対話システム300及び情報取得装置200及びクエリ生成装置100の各部の処理をコンピュータにより実現してもよく、この場合は各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムを
図6に示すコンピュータ1000の記憶部1020に読み込ませ、演算処理部1010、入力部1030、出力部1040などに動作させることにより、上記各装置における各種の処理機能がコンピュータ上で実現される。
【0072】
本発明の対話システム300及び情報取得装置200及びクエリ生成装置100は、例えば単一のハードウェアエンティティとして、ハードウェアエンティティの外部から信号を入力可能な入力部、ハードウェアエンティティの外部に信号を出力可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
【0073】
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
【0074】
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部と表した各構成部)を実現する。つまり、本発明の実施形態の各構成部は、処理回路(Processing Circuitry)により構成されてもよい。
【0075】
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
【0076】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体は、例えば、非一時的な記録媒体であり、具体的には、磁気記録装置、光ディスク、等である。
【0077】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0078】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の非一時的な記憶装置である補助記録部1050に格納する。そして、処理の実行時、このコンピュータは、自己の非一時的な記憶装置である補助記録部1050に格納されたプログラムを記憶部1020に読み込み、読み込んだプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを記憶部1020に読み込み、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0079】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、対話システム300及び情報取得装置200及びクエリ生成装置100を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
【0080】
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。