(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-15
(45)【発行日】2024-04-23
(54)【発明の名称】特定装置、特定方法及びプログラム
(51)【国際特許分類】
G06F 16/9032 20190101AFI20240416BHJP
【FI】
G06F16/9032
(21)【出願番号】P 2020009934
(22)【出願日】2020-01-24
【審査請求日】2022-12-19
【前置審査】
(73)【特許権者】
【識別番号】000003193
【氏名又は名称】TOPPANホールディングス株式会社
(74)【代理人】
【識別番号】100149548
【氏名又は名称】松沼 泰史
(74)【代理人】
【識別番号】100139686
【氏名又は名称】鈴木 史朗
(74)【代理人】
【識別番号】100169764
【氏名又は名称】清水 雄一郎
(74)【代理人】
【識別番号】100147267
【氏名又は名称】大槻 真紀子
(72)【発明者】
【氏名】橋本 江美
(72)【発明者】
【氏名】平方 雅隆
(72)【発明者】
【氏名】森榮 晃彦
【審査官】早川 学
(56)【参考文献】
【文献】特開2019-145102(JP,A)
【文献】特開2001-101203(JP,A)
【文献】特開平05-151264(JP,A)
【文献】特開平04-333169(JP,A)
【文献】特開平01-114968(JP,A)
【文献】特開平09-091305(JP,A)
【文献】米国特許出願公開第2006/0206531(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
ユーザにより発話された、印刷物に記載された記載内容に関する質問において質問対象となる対象箇所を特定する特定装置であって、
前記質問に対応する入力情報を取得する取得部と、
前記取得部によって取得された前記入力情報に基づいて、前記対象箇所を検索するための検索情報を抽出する対話制御部と、
前記対話制御部によって抽出された前記検索情報に基づいて、前記記載内容ごとに当該記載内容の属性情報が対応付けられた印刷物情報テーブルを検索する検索部と、
前記検索部によって検索された検索結果に基づいて、前記対象箇所を特定する特定部と、
前記特定部によって特定された前記対象箇所を示す情報を、前記質問の回答を音声で示すための出力情報として出力する出力部と、
を備え、
前記対話制御部は、前記検索部によって検索された検索結果が、一つの印刷物に掲載されているものであって、複数のページのそれぞれに掲載されているものである場合、ページを特定するための追加質問を要求する情報を生成し、
前記出力部は、前記対話制御部によって生成された前記追加質問を要求する情報を音声で示すための出力情報として出力する、
ことを特徴とする特定装置。
【請求項2】
前記取得部は、前記ユーザにより発話された前記質問の音声情報を入力情報として取得し、
前記出力部は、前記対話制御部によって生成された前記追加質問を要求する質問文、又は前記特定部によって特定された前記対象箇所を示す回答文を、音声に変換した音声情報を出力情報として出力する、
請求項1に記載の特定装置。
【請求項3】
取得部と、対話制御部と、検索部と、特定部と、出力部とを備え、ユーザにより発話された、印刷物に記載された記載内容に関する質問において質問対象となる対象箇所を特定する特定装置が行う特定方法であって、
前記取得部が、前記質問に対応する入力情報を取得し、
前記対話制御部が、前記取得部によって取得された前記入力情報に基づいて、前記対象箇所を検索するための検索情報を抽出し、
前記検索部が、前記対話制御部によって抽出された前記検索情報に基づいて、前記記載内容ごとに当該記載内容の属性情報が対応付けられた印刷物情報テーブルを検索し、
前記特定部が、前記検索部によって検索された検索結果に基づいて、前記対象箇所を特定し、
前記出力部が、前記特定部によって特定された前記対象箇所を示す情報を、前記質問の回答を音声で示すための出力情報として出力し、
前記対話制御部が、前記検索部によって検索された検索結果が、一つの印刷物に掲載されているものであって、複数のページのそれぞれに掲載されているものである場合、ページを特定するための追加質問を要求する情報を生成し、
前記出力部が、前記対話制御部によって生成された前記追加質問を要求する情報を音声で示すための出力情報として出力する、
ことを特徴とする特定方法。
【請求項4】
ユーザにより発話された、印刷物に記載された記載内容に関する質問において質問対象となる対象箇所を特定する特定装置において、
前記質問に対応する入力情報を取得する取得部と、
前記取得部によって取得された前記入力情報に基づいて、前記対象箇所を検索するための検索情報を抽出する対話制御部と、
前記対話制御部によって抽出された前記検索情報に基づいて、前記記載内容ごとに当該記載内容の属性情報が対応付けられた印刷物情報テーブルを検索する検索部と、
前記検索部によって検索された検索結果に基づいて、前記対象箇所を特定する特定部と、
前記特定部によって特定された前記対象箇所を示す情報を、前記質問の回答を音声で示すための出力情報として出力する出力部と、
を備える特定装置のコンピュータを、
前記検索部によって検索された検索結果が、一つの印刷物に掲載されているものであって、複数のページのそれぞれに掲載されているものである場合、ページを特定するための追加質問を要求する情報を生成する生成手段、
前記対話制御部によって生成された前記追加質問を要求する情報を音声で示すための出力情報として出力する出力手段、
として機能させるためのプログラム。
【請求項5】
ユーザにより発話された、印刷物に記載された記載内容に関する質問において質問対象となる対象箇所を特定する特定装置と接続される端末装置であって、
前記質問に相当する音声を取得し、前記特定装置からの前記質問の回答を音声にて出力する入出力部と、
前記入出力部によって取得された音声に対応する入力情報を前記特定装置に送信し、前記特定装置から前記質問の回答を示す出力情報を受信する通信部と、を備える端末装置のコンピュータを、
前記特定装置から前記対象箇所を特定するための、一つの印刷物に掲載されているものであって、複数のページのそれぞれに掲載されているものである場合、ページを特定するための追加質問を要求する出力情報を受信する受信手段、
前記追加質問を音声にて出力する出力手段、
前記追加質問に対する前記ユーザの回答に相当する音声を取得する取得手段、
前記取得手段によって取得された音声に対応する入力情報を前記特定装置に送信する送信手段、
として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特定装置、特定方法及びプログラムに関する。
【背景技術】
【0002】
電子出版物の利用が増加している一方で、雑誌やカタログなどの印刷物は、見やすいなどの利点から根強く利用されている。しかし、雑誌やカタログなどは、その見やすさの反面、検索性が低いなど、電子出版物と比較して利便性が劣るという性質がある。
【0003】
この対策として、印刷物に記載された内容や、ページ、もしくは印刷物それ自体の情報を、電子的サービスと紐付けて利便性を向上させる方法が考えられる。ここでの電子的サービスとは、印刷物に記載された内容等の電子的な情報(電子データともいう)を利用したサービスであって、例えば、雑誌等に掲載された記事の電子データを取得するサービスや、カタログなどを撮像した画像を用いて製品を注文し易くするシステムなどである(例えば、特許文献1、及び特許文献2参照)。
【0004】
このような電子的サービスにおいて、サービス提供側のシステムは、提供する電子的サービスの元となる、ユーザが意図する記事(例えば、印刷物に記載された商品番号やページ番号等)を特定する必要がある。例えば、特許文献1では、印刷物に記載された記事にチェックボックスが配置されており、ユーザが電子化を所望する記事にチェックマークを付ける。システムは、ユーザによってチェックマークが付されたページが撮像された画像から、ユーザが所望する記事を特定する記述が開示されている。特許文献2では、印刷物が撮像された画像から抽出した特徴を用いて、ユーザが意図する記事の候補を示す技術が開示されている。
【先行技術文献】
【特許文献】
【0005】
【文献】特開2008-131333号公報
【文献】特開2018-152075号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上述した手法では、ユーザが印刷物に記載された記事等の画像を撮影する必要があり、手間がかかるという問題があった。また、印刷物に記載された記事等の画像を撮影するためには、手元に印刷物が存在している必要がある。このため、例えば、当該印刷物をユーザが過去に閲覧した印刷物に記載された記事の記憶をもとに、ユーザが意図する記載を特定するような状況で利用することができない。つまり、サービスを提供できる状況が限定されるという問題があった。
【0007】
本発明は、このような状況に鑑みてなされたもので、ユーザに手間をかけさせることなく、また、印刷物がユーザの手元にない場合であっても、ユーザが意図する印刷物や印刷物の記載内容を特定することができる特定装置、特定方法及びプログラムを提供する。
【課題を解決するための手段】
【0008】
本発明の特定装置は、ユーザにより発話された、印刷物に記載された記載内容に関する質問において質問対象となる対象箇所を特定する特定装置であって、前記質問に対応する入力情報を取得する取得部と、前記取得部によって取得された前記入力情報に基づいて、前記対象箇所を検索するための検索情報を抽出する対話制御部と、前記対話制御部によって抽出された前記検索情報に基づいて、前記記載内容ごとに当該記載内容の属性情報が対応付けられた印刷物情報テーブルを検索する検索部と、前記検索部によって検索された検索結果に基づいて、前記対象箇所を特定する特定部と、前記特定部によって特定された前記対象箇所を示す情報を、前記質問の回答を音声で示すための出力情報として出力する出力部と、を備え、前記対話制御部は、前記検索部によって検索された検索結果が、一つの印刷物に掲載されているものであって、複数のページのそれぞれに掲載されているものである場合、ページを特定するための追加質問を要求する情報を生成し、前記出力部は、前記対話制御部によって生成された前記追加質問を要求する情報を音声で示すための出力情報として出力する、ことを特徴とする。
【0009】
本発明の特定方法は、取得部と、対話制御部と、検索部と、特定部と、出力部とを備え、ユーザにより発話された、印刷物に記載された記載内容に関する質問において質問対象となる対象箇所を特定する特定装置が行う特定方法であって、前記取得部が、前記質問に対応する入力情報を取得し、前記対話制御部が、前記取得部によって取得された前記入力情報に基づいて、前記対象箇所を検索するための検索情報を抽出し、前記検索部が、前記対話制御部によって抽出された前記検索情報に基づいて、前記記載内容ごとに当該記載内容の属性情報が対応付けられた印刷物情報テーブルを検索し、前記特定部が、前記検索部によって検索された検索結果に基づいて、前記対象箇所を特定し、前記出力部が、前記特定部によって特定された前記対象箇所を示す情報を、前記質問の回答を音声で示すための出力情報として出力し、前記対話制御部が、前記検索部によって検索された検索結果が、一つの印刷物に掲載されているものであって、複数のページのそれぞれに掲載されているものである場合、ページを特定するための追加質問を要求する情報を生成し、前記出力部が、前記対話制御部によって生成された前記追加質問を要求する情報を音声で示すための出力情報として出力する、ことを特徴とする。
【0010】
本発明のプログラムは、ユーザにより発話された、印刷物に記載された記載内容に関する質問において質問対象となる対象箇所を特定する特定装置において、前記質問に対応する入力情報を取得する取得部と、前記取得部によって取得された前記入力情報に基づいて、前記対象箇所を検索するための検索情報を抽出する対話制御部と、前記対話制御部によって抽出された前記検索情報に基づいて、前記記載内容ごとに当該記載内容の属性情報が対応付けられた印刷物情報テーブルを検索する検索部と、前記検索部によって検索された検索結果に基づいて、前記対象箇所を特定する特定部と、前記特定部によって特定された前記対象箇所を示す情報を、前記質問の回答を音声で示すための出力情報として出力する出力部と、を備える特定装置のコンピュータを、前記検索部によって検索された検索結果が、一つの印刷物に掲載されているものであって、複数のページのそれぞれに掲載されているものである場合、ページを特定するための追加質問を要求する情報を生成する生成手段、前記対話制御部によって生成された前記追加質問を要求する情報を音声で示すための出力情報として出力する出力手段、として機能させるためのプログラムである。
【0011】
本発明のプログラムは、ユーザにより発話された、印刷物に記載された記載内容に関する質問において質問対象となる対象箇所を特定する特定装置と接続される端末装置であって、前記質問に相当する音声を取得し、前記特定装置からの前記質問の回答を音声にて出力する入出力部と、前記入出力部によって取得された音声に対応する入力情報を前記特定装置に送信し、前記特定装置から前記質問の回答を示す出力情報を受信する通信部と、を備える端末装置のコンピュータを、前記特定装置から前記対象箇所を特定するための、一つの印刷物に掲載されているものであって、複数のページのそれぞれに掲載されているものである場合、ページを特定するための追加質問を要求する出力情報を受信する受信手段、前記追加質問を音声にて出力する出力手段、前記追加質問に対する前記ユーザの回答に相当する音声を取得する取得手段、前記取得手段によって取得された音声に対応する入力情報を前記特定装置に送信する送信手段、として機能させるためのプログラムである。
【発明の効果】
【0013】
本発明によれば、ユーザに手間をかけさせることなく、また、印刷物がユーザの手元にない場合であっても、ユーザが意図する印刷物や印刷物の記載内容を特定することができる。
【図面の簡単な説明】
【0014】
【
図1】実施形態に係る特定システム1の構成の例を示すブロック図である。
【
図2】実施形態に係る印刷物DB23に記憶される印刷物情報テーブル230の構成の例を示す図である。
【
図3】実施形態に係る対話シナリオDB33に記憶される対話シナリオ情報テーブル330の構成の例を示す図である。
【
図4】実施形態に係る制御部42の構成の例を示すブロック図である。
【
図5】実施形態に係る特定システム1が行う処理の流れを示すシーケンス図である。
【
図6】実施形態に係る特定システム1による端末装置10の表示例を示す図である。
【発明を実施するための形態】
【0015】
以下、実施形態のサーバ装置、及び特定システムを、図面を参照しながら説明する。
【0016】
図1は、実施形態に係る特定システム1の構成の例を示すブロック図である。特定システム1は、例えば、端末装置10と、印刷物DBサーバ20と、対話シナリオDBサーバ30と、サーバ装置40とを備える。端末装置10とサーバ装置40とは、インターネット等の通信ネットワークNWを介して相互に通信可能に接続される。サーバ装置40は、印刷物DBサーバ20、及び対話シナリオDBサーバ30と相互に情報の送受信が可能に接続される。サーバ装置40は、「特定装置」の一例である。
【0017】
本実施形態において、ユーザは、印刷物の記載内容に関する質問(以下、単に質問ともいう)を、端末装置10に対して行う。ここで、印刷物は、文字や画像、図表等が印刷されている物体であり、例えば、本(教科書、図鑑、小説、美術誌など)、雑誌(週刊誌、月刊誌など)、パンフレット、カタログ、資料(文献など)、包装体(包装紙、パッケージなど)の紙、プラスチック、布、板などである。印刷物の記載内容には、印刷物に印刷された文字や画像、図表が含まれる。また、ここでの質問は、印刷物に記載された内容に関する質問であり、例えば、以前読んだ記事や画像を、再度読み返したくなったり、詳細に知りたいが思い出せなかったりしたときに行う質問である。例えば、質問は、ユーザが意図する記事や画像が掲載されているページ番号、当該ページにおいて掲載されている位置、或いは記事に記載されている文言、画像に付された説明文(以下、キャプションともいう)等を確認するものである。
【0018】
また、本実施形態において、質問は、口頭で行われる。例えば、ユーザは、「あの雑誌にあった青色の化粧品は何ページ?」などと、質問を端末装置10に向かって発話する。これにより、画像を撮像したり、文字を入力したりして質問を行う場合と比較して、ユーザの手間を軽減させることが可能である。また、画像を撮像しないので、印刷物がユーザの手元にない場合であっても、特定システム1を利用することが可能である。
【0019】
しかしながら、質問が口頭で行われる場合、詳細な説明が省略されてしまうことが考えられる。例えば、「あの雑誌にあった青色の化粧品は何ページ?」という質問がなされた場合、「あの雑誌」が何れの印刷物に該当するか不明である。また、一般に「化粧品」の種類は多い。このため、ユーザが意図している化粧品が、化粧水なのか、乳液なのか、化粧ブラシなのか、この質問だけでは特定することが困難である。
【0020】
この対策として、本実施形態では、対話形式にて、ユーザが意図する記載内容を特定する。例えば、「あの雑誌にあった青色の化粧品は何ページ?」というユーザからの質問に対して「質問対象の印刷物が特定できる情報を教えてください」などというシステム側からの質問を、端末装置10から音声にて出力する。これにより、ユーザからの最初の質問だけでは特定できない事項について、確認を行うことが可能となる。したがって、質問の詳細な説明が省略されていた場合であっても、ユーザが意図する印刷物や印刷物の記載内容を特定することが可能である。
【0021】
端末装置10は、例えばスマートフォンなどの携帯端末である。端末装置10は、例えば、通信部11と、制御部12と、入出力部13とを備える。通信部11は、サーバ装置40と通信ネットワークNWを介した通信を行う。制御部12は、端末装置10を統括的に制御する。入出力部13は、マイク及びスピーカなど音声の入出力を行う機能部である。入出力部13に、キーボードやタッチパネルが含まれていてもよい。
【0022】
端末装置10には、印刷物の記載内容に関する質問を受け付けるアプリケーション(以下、アプリという)がインストールされている。アプリが行う処理は、制御部12が、端末装置10がハードウェアとして備えるCPU(Central Processing Unit)にプログラムを実行させることによって実現される。端末装置10は、ユーザの操作などによってアプリが起動されると、入出力部13のマイクを集音可能な状態にして、ユーザからの質問を受け付ける。この場合、端末装置10の表示部(不図示)に、「質問をお話しください」など、アプリが質問を受け付け可能である旨を知らせるメッセージが表示されたり、入出力部13から質問を促すアラーム音が出力されたりするようにしてもよい。
【0023】
端末装置10は、ユーザがマイクに向けて発話した質問を、入出力部13を介して取得する。端末装置10は、ユーザによって音声で入力された質問の情報(入力情報)を、サーバ装置40に送信する。
【0024】
或いは、端末装置10が音声認識機能を有する場合、端末装置10は、入力された音声を、制御部12の音声認識機能によって音声認識し、文字情報に変換するようにしてもよい。例えば、端末装置10は、変換した文字情報を表示部に表示する。ユーザは、表示された文字を目視により確認し、口頭でした質問が正しく表示されていればその旨の情報を、端末装置10の入出力部13を介して入力する。ここでの入力は、キーボードやタッチパネルを操作することによって実施されてもよいし、「オッケー」などと口頭で発話することによる音声入力によって実施されてもよい。一方、ユーザは、口頭でした質問が正しく表示されていない場合、質問し直すなど、端末装置10に質問が正しく認識されるように対応する。端末装置10は、ユーザの質問が正しく受け付けられた旨の情報が入力された場合、質問の内容を示す文字情報をサーバ装置40に送信する。この場合、質問の内容を示す文字情報は、ユーザによって音声で入力された質問の情報が文字に変換された情報であり、「入力情報」の一例である。
【0025】
端末装置10は、ユーザの質問に対する回答、又は、ユーザの質問に対するシステム側からの追加質問を示す情報を、サーバ装置40から受信する。端末装置10は、ユーザの質問に対する回答又は追加質問(以下、回答等という)を音声データの状態で受信し、受信した情報を入出力部13のスピーカから出力する。
【0026】
或いは、端末装置10が音声変換機能を有する場合には、端末装置10は、ユーザの質問に対する回答を文字データの状態で受信するようにしてもよい。この場合、端末装置10は、制御部12の音声変換機能によって文字を音声に変換し、変換した文字を表示部に表示する。
【0027】
ユーザの質問に対し、システム側から追加質問があった場合、端末装置10は、追加質問に対するユーザからの回答を、入出力部13のマイクを介して取得する。端末装置10は、取得したユーザからの回答を示す情報(入力情報)を、サーバ装置40に送信する。端末装置10が当該情報をサーバ装置40に送信する方法は、端末装置10がユーザからの質問をサーバ装置40に送信する方法と同様であるため、その説明を省略する。
【0028】
印刷物DBサーバ20は、印刷物の記載内容に関するDB(データベース)を有するサーバ装置である。印刷物DBサーバ20は、例えば、通信部21と、制御部22と、印刷物DB23とを備える。通信部21は、サーバ装置40と通信を行う。制御部22は、印刷物DBサーバ20を統括的に制御する。制御部22は印刷物DBサーバ20がハードウェアとして備えるCPUにプログラムを実行させることによって実現される。制御部22は、サーバ装置40からの印刷物DB23に関する問合わせ(クエリ)に応答する。印刷物DB23に関する問合わせとは、データの検索、及びデータの取得である。ここでのデータは、印刷物DB23に記憶される印刷物情報テーブル230における印刷物の記載内容である。
【0029】
制御部22は、サーバ装置40からの、データの検索の問い合わせに応答する。制御部22は、通信部21を介してサーバ装置40から、検索に用いる文字列の情報(検索情報)を取得する。制御部22は、取得した文字列に基づいて、印刷物情報テーブル230を参照し、当該文字列と一致する、又は類似する文字列が属性情報に含まれる記載内容を抽出する。制御部22は、抽出した記載内容を示す情報を、検索結果として、通信部21を介してサーバ装置40に通知する。記載内容を示す情報は、記載内容そのものの情報であってもよいし、記載内容を識別する識別情報のみであってもよいし、抽出した記載内容の個数などを示す情報が含まれていてもよい。
【0030】
制御部22は、サーバ装置40からの、データ取得の問い合わせに応答する。制御部22は、通信部21を介してサーバ装置40から、取得する対象のデータの識別情報を取得する。制御部22は、取得した識別情報に基づいて、印刷物情報テーブル230を参照し、当該識別情報に対応する記載内容を抽出する。制御部22は、抽出した記載内容を、通信部21を介してサーバ装置40に通知する。
【0031】
印刷物DB23は、印刷物情報テーブル230を記憶する。印刷物DB23は、記憶媒体、例えば、HDD(Hard Disk Drive)、フラッシュメモリ、EEPROM(Electrically Erasable Programmable Read Only Memory)、RAM(Random Access read/write Memory)、ROM(Read Only Memory)、またはこれらの記憶媒体の任意の組み合わせによって構成される。
【0032】
印刷物情報テーブル230は、印刷物の記載内容ごとに、当該記載内容における属性情報が対応付けられたテーブルである。すなわち、印刷物情報テーブル230は、記載内容と当該記載内容における属性情報が対応付けられた情報を含む「データ構造」を有する。
【0033】
属性情報は、印刷物の記載内容における性質や特徴を示す情報である。例えば、文字の属性情報は、記載されている文字の文字コードを示す情報、及び文字のフォントやフォントサイズ、色など表示のスタイルを示す情報などである。なお、属性情報は、個々の文字に対して付されてもよいし、文字列や文章に対して付されてもよい。文字列の属性情報は、上述した文字の属性情報に加えて、文字列を構成する文字の数などの情報が含まれる。文章の属性情報には、上述した文字の属性情報に加えて、文章における頻出語句、段落数などの情報が含まれる。文章にタイトルや筆者の名前、日付などが含まれる場合、それらの情報が属性情報に含まれていてもよい。また、文章が説明文なのか、物語なのか、詩なのか、会話文なのか等の、文章の種別が属性情報に含まれていてもよい。
【0034】
画像の属性情報は、画像のサイズ、画像の固有表現などである。画像の固有表現は、画像に対応付けられている固有表現であって、例えば、画像に表現されている物体の種類、数などの情報である。画像の固有表現は、例えば、物体認識などの画像処理によって抽出することが可能である。画像にキャプションが付されている場合には、キャプションに記載された事項を、画像の属性情報として含めてもよい。例えば、ある製品の画像の下に、製品名、値段、ブラント名等が記載されたキャプションが付されている場合、これらの製品名等が、属性情報となり得る。
【0035】
図表の属性情報は、図表のサイズ、図表の固有表現などである。図表の固有表現は、例えば、図表に示されている罫線や、罫線で区切られた領域に示された文字列などを抽出する画像処理によって抽出することが可能である。図表にキャプションが付されている場合には、画像と同様に、キャプションに記載された事項を、属性情報として含めてもよい。
【0036】
属性情報には、記載内容の顕著性(目立ち度合)が含まれていてよい。顕著性とは、記載事項が視覚的な注意を向けられやすさの度合いであり、記載内容を含むページを視認した人が、記載内容に注目する度合いである。顕著性は、例えば、一般的なレイアウト知識に基づいて、ルールベースで決定される。例えば、メインタイトルと、サブタイトルとがあるレイアウトの場合には、メインタイトルが、サブタイトルと比較して大きい顕著性を示す値とする。顕著性は、例えば、所定の範囲(例えば、0~1)における、実数値で表現され、数値が大きい程顕著性が大きく、より注目度されることを示す。
【0037】
或いは、目立ち度合は、サリエンシーマップ(顕著性マップ)に基づいて決定されてもよい。顕著性マップは、記載内容における視覚的な特徴に基づいて決定される。視覚的な特徴とは、ページ全体に対して記載内容が視覚的に人目を引くかどうかの観点からみた特徴であって、例えば、色、明度などのコントラスト等により決定される。例えば、ページ全体を見た時に、周囲よりも大きい文字が記載されている箇所や、周囲と色が異なる箇所は、人目をひきやすく、目立ち度合が大きい。顕著性マップは、例えば、画像処理によって、ページ全体のコントラスト分布を抽出することによって決定される。
【0038】
図2は、実施形態に係る印刷物DB23に記憶される印刷物情報テーブル230の構成の例を示す図である。印刷物情報テーブル230は、印刷物の記載内容ごとに作成される。印刷物情報テーブル230は、例えば、共通項目、文字、図表、画像などの項目を備える。共通項目とは、記載内容が文字である場合にも、図表や画像である場合にも、共通する属性情報が示される。共通項目は、例えば、書誌的事項、掲載ページ、区分、記載位置、顕著性などの項目を備える。書誌的事項には、印刷物の書誌的な事項が示され、例えば、書名、著者名、ページ数、大きさ、ISBN(International Standard Book Number)などの項目を備える。書誌的事項には、記載内容が掲載された印刷物についての、上述したような書誌的な事項が示される。ページ数には、印刷物において、記載内容が掲載されているページ数が示される。区分には、記載内容が、文字であるか、図表であるか、画像であるかの区分が示される。記載位置には、ページ内における記載内容が掲載されている位置が示される。顕著性には、ページ内における記載内容の顕著性(目立ち度合)が示される。
【0039】
文字には、記載内容が文字である場合の属性情報が示される。この文字には、文字列や文章が含まれてもよい。文字は、テキスト情報と、スタイル情報などの項目を備える。テキスト情報は、記載内容(文字)における、フォントや色などを除いたテキストの情報が示される。スタイル情報には、記載内容(文字)における、印刷物に印刷された態様、すなわち表示上の仕様が示される。スタイル情報は、例えば、区分、サイズ、色、フォント、書式などの項目を備える。区分は、記載内容(文字)がタイトルであるか、本文であるか等の区分を示す情報である。サイズ、色、フォント、書式などは、記載内容(文字)の文字が表示されているフォントサイズ、色、字体、書式などを示している。
【0040】
図表、画像には、記載内容が図表や画像である場合の属性情報が示される。この図表や画像には、図表や画像に付されるキャプションが含まれてもよい。図表、画像は、固有表現と、キャプション情報などの項目を備える。固有表現には、記載内容(図表、画像)における、画像に表現されている物体の種類、数などの情報が示される。キャプション情報には、図表や画像に付されたキャプションが示される。キャプション情報には、キャプションとして記載された文字列や文章そのものが示されていてもよいし、頻出語句や値段、商品名などを抽出した結果が示されていてもよい。
【0041】
属性情報は、上記の各項目に限定されることはない。属性情報は、少なくとも記載内容における性質や特徴を示すものであればよく、上記の各項目に関連するものが含まれてよい。特に、属性情報は、記載内容について、特に人の記憶に残ると思われる事項、人が確認したがる事項であることが望ましい。ユーザからの質問には、ユーザの記憶に残っている事項や、ユーザが確認したい事項が含まれることが想定されるためである。
【0042】
印刷物情報テーブル230における上記の各項目は、任意の手法で記憶(登録)されてよい。例えば、印刷物ごと、或いは項目ごとに人手により登録されたものであってもよいし、機械的な手法により登録されたものであってもよい。機械的な手法とは、例えば、組版情報を利用した手法や、OCR(Optical Character Reader)の認識結果を利用した手法が考えられる。
【0043】
キャプション情報を、組版情報から推定してもよいし、機械学習の手法を用いて推定してもよい。機械学習の手法を用いる場合、例えば、事前に、学習用の印刷物におけるページごとの電子データ(スキャンデータ等)と、キャプションの位置とが対応づけられた学習用のデータセットを学習した学習済みモデルを作成する。そして、作成した学習モデルに、印刷物のページを入力することにより、キャプションとして記載された箇所を推定する。
【0044】
図1に戻り、対話シナリオDBサーバ30は、対話内容に関するDBを有するサーバ装置である。ここでの対話内容は、ユーザとシステム側とでやり取りされる質問と回答、或いは、ユーザの質問に対するシステム側からの追加質問と、その追加質問の回答などの内容を示す。対話シナリオDBサーバ30は、例えば、通信部31と、制御部32と、対話シナリオDB33とを備える。
【0045】
通信部31は、サーバ装置40と通信を行う。制御部32は対話シナリオDBサーバ30を統括的に制御する。制御部32は、対話シナリオDBサーバ30がハードウェアとして備えるCPUにプログラムを実行させることによって実現される。制御部32は、サーバ装置40からの対話シナリオDB33に関する問合わせ(クエリ)に応答する。対話シナリオDB33に関する問合わせとは、データの検索、及びデータの取得である。ここでのデータは、対話シナリオDB33に記憶される対話シナリオ情報テーブル330における対話内容である。制御部32は、サーバ装置40からの問い合わせに応答する方法は、制御部22がサーバ装置40からの問い合わせに応答する方法と同様であるため、その説明を省略する。
【0046】
対話シナリオDB33は、対話シナリオ情報テーブル330を記憶する。対話シナリオDB33は、記憶媒体、例えば、HDD、フラッシュメモリ、EEPROM、RAM、ROM、またはこれらの記憶媒体の任意の組み合わせによって構成される。対話シナリオ情報テーブル330は、シナリオごとに、追加質問の典型が対応付けられたテーブルである。シナリオは、例えば、質問と、検索情報と、検索結果の組合せごとに設定される。例えば、質問が「青い色の化粧品が掲載されているページ」である場合を考える。この質問から抽出された検索情報が「青い色、化粧品」であり、検索結果が、「該当する記載内容が複数」かつ、「該当する記載内容を含む印刷物も複数」であったとする。この場合、ユーザが意図する記載内容を特定するためには、まず印刷物を特定する必要がある。このため、追加質問の典型として「印刷物を特定するための追加質問」が対応づけられる。
【0047】
或いは、同じ質問に対して、検索結果が、「該当する記載内容が複数」かつ、「該当する記載内容を含む印刷物が1つ」であったとする。この場合、ユーザが意図する記載内容を特定するためには、ページを特定する必要がある。このため、追加質問の典型は「ページを特定するための追加質問」が対応づけられる。
【0048】
図3は、実施形態に係る対話シナリオDB33に記憶される対話シナリオ情報テーブル330の構成の例を示す図である。対話シナリオ情報テーブル330は、例えば、シナリオID、該当する記載内容の数、内訳、追加質問の点検などの項目を備える。シナリオIDは、対話シナリオを一意に識別する識別情報である。該当する記載内容の数は、検索の結果、該当する記載内容の数である。内訳は、該当する記載内容の内訳であって、例えば、印刷物フラグ、及びページフラグなどの項目を備える。印刷物フラグには、該当する記載内容が同一の印刷物にのみ掲載されているものなのか、複数の印刷物に掲載されているものなのかの二値が示されている。ページフラグには、該当する記載内容が同一のページにのみ掲載されているものなのか、複数のページに掲載されているものなのかの二値が示されている。
【0049】
図1に戻り、サーバ装置40は、例えば、通信部41と、制御部42と、記憶部43とを備える。通信部41は、端末装置10と通信ネットワークNWを介して通知する。通信部41は、印刷物DBサーバ20、及び対話シナリオDBサーバ30と通信する。制御部42は、サーバ装置40を統括的に制御する。制御部42は、サーバ装置40がハードウェアとして備えるCPUにプログラムを実行させることによって実現される。記憶部43は、記憶媒体、例えば、HDD、フラッシュメモリ、EEPROM、RAM、ROM、またはこれらの記憶媒体の任意の組み合わせによって構成される。記憶部43は、制御部42が行う各種の処理に応じて実行されるプログラム、各種の処理で用いられるパラメータなどを記憶する。
【0050】
図4は、実施形態に係る制御部42の構成の例を示すブロック図である。制御部42は、例えば、取得部420と、対話制御部421と、検索部422と、判定部423と、特定部424と、出力部425とを備える。取得部420は、端末装置10からの入力情報を、通信部41を介して取得する。
【0051】
対話制御部421は、入力情報に基づいて、対象箇所を検索するための検索情報を抽出する。対象箇所は、ユーザからの質問において質問の対象となっている、記載内容が掲載されている印刷物における、当該記載内容の掲載箇所である。入力情報が音声情報である場合、対話制御部421は、入力情報に音声認識処理を行うことによって、入力情報を文字情報に変換する。入力情報が文字情報である場合、対話制御部421は、当該音声認識処理を省略する。
【0052】
対話制御部421は、変換した文字情報から、検索の文字列となり得るキーワードを抽出する。対話制御部421は、例えば、文字情報に示される質問文を形態素解析して名詞などの単語を抽出し、抽出した単語をキーワードとする。或いは、対話制御部421は、文字情報に示される質問文から抽出した、固有名詞や、場所、方向、日付などの特徴をキーワードとしてもよい。この場合、対話制御部421は、固有名詞等を自然言語解析(例えば、固有表現抽出)の手法を用いて抽出する。対話制御部421は、抽出したキーワードを示す情報を検索情報とする。
【0053】
対話制御部421は、後述する判定部423により追加質問を行うと判定された場合、追加質問の質問文を作成する。対話制御部421が、追加質問の質問文を生成する方法については、後で詳しく説明する。
【0054】
対話制御部421は、後述する特定部424により、ユーザからの質問の回答とする記載内容が特定された場合、回答文を作成する。回答文は回答を伝える会話文であり、例えば、特定した記載箇所が掲載されている箇所を示す文言である。対話制御部421は、特定部424によって特定された記載内容、及び質問文などを用いて回答文を作成する。対話制御部421は、例えば、「青い色の化粧品が掲載されているページはどこ?」との質問に対する回答文として、「青い色の化粧品は、雑誌MM春号の139ページの左上に掲載されています」などの文を作成する。
【0055】
検索部422は、検索情報に基づいて、印刷物情報テーブル230を検索する。検索部422は、検索情報を、通信部41を介して印刷物DBサーバ20に送信し、印刷物DBサーバ20の制御部22にデータ(記載内容)検索を指示する。検索部422は、印刷物DBサーバ20による検索結果を、通信部41を介して取得する。
【0056】
判定部423は、検索部422によって検索された検索結果に基づいて、ユーザからの質問に対し、システム側から追加の質問(追加質問)を行うか否かを判定する。判定部423は、例えば、検索部422によって検索された検索結果が、複数の記載内容が該当するものである場合、記載内容を1つに絞り込む(特定する)ために、追加質問を行うと判定する。
【0057】
特定部424は、検索部422によって検索された検索結果に基づいて、ユーザからの質問に対する回答となる、記載内容を特定する。特定部424は、例えば、検索部422によって検索された検索結果が、1つの記載内容が該当するものである場合、その記載内容が、ユーザの質問に対する回答であると判定する。
【0058】
出力部425は、対話制御部421によって生成された回答文、及び追加質問の質問文を示す出力情報を、通信部41を介して端末装置10に出力する。出力情報は、端末装置10に通知される、ユーザからの質問に対する応答(回答又は追加質問)を音声にて行うための情報である。例えば、端末装置10が音声情報を受信して、音声を出力する仕様である場合、出力情報は応答する文言(回答文、又は追加質問の質問文)を音声に変換した情報である。一方、端末装置10が、文字情報を受信し、受信した文字情報を音声に変換し、変換した音声を出力する仕様である場合、出力情報は応答する文言(回答文、又は追加質問の質問文)の文字情報である。
【0059】
ここで、対話制御部421が、追加質問を示す出力情報を生成する方法について、説明する。ここでは、追加質問の典型が、「印刷物を特定するための追加質問」、「ページを特定するための追加質問」、「ページ内の掲載箇所を特定するための追加質問」、の3つの質問である場合を例に説明する。しかしながら、追加質問の典型は任意であってよく、何れの典型であっても以下で説明する方法を適用することが可能である。
【0060】
対話制御部421は、検索部422によって検索された記載内容を、追加質問の典型に応じて分類する。具体的に、対話制御部421は、記載内容の属性情報に基づいて、同一の印刷物に掲載されている記載内容ごとに分類する。対話制御部421は、例えば、検索された記載内容が8つあった場合、印刷物Aに掲載されているものが2つ、印刷物Bに掲載されているものが5つ、印刷物Cに掲載されているものが1つなどというように、同一の印刷物に掲載された記載内容ごとに分類する。
【0061】
対話制御部421は、例えば、検索された記載内容が8つあり、8つ全ての記載内容が同一の印刷物に掲載されているものである場合、記載内容の属性情報に基づいて、同一のページに掲載されている記載内容ごとに分類する。対話制御部421は、例えば、検索された記載内容が8つあり、全て印刷物Aに掲載されており、Dページに掲載されているものが2つ、Eページに掲載されているものが5つ、Fページに掲載されているものが1つなどというように、同一のページに掲載された記載内容ごとに分類する。
【0062】
対話制御部421は、検索部422によって検索された記載内容を分類した結果を、対話シナリオDBサーバ30送信し、対話シナリオDBサーバ30の制御部32にデータ(追加質問の典型)検索を指示する。対話制御部421は、対話シナリオDBサーバ30による検索結果を、通信部41を介して取得する。
【0063】
対話制御部421は、取得した追加質問の典型と、検索結果、ユーザからの質問文などを用いて、追加質問の質問文を作成する。例えば、追加質問の典型が「印刷物を特定する追加質問」であり、検索結果が該当記載箇所8であり、ユーザからの質問文が「青い色の化粧品が掲載されているページはどこ?」である場合を考える。この場合、対話制御部421は、例えば、「青い色の化粧品が掲載されているページがある印刷物が複数あります。印刷物を特定できる情報を教えてください」、或いは、「青い色の化粧品が掲載されている印刷物の情報を教えてください」などの文を作成する。
【0064】
図5は、実施形態に係る特定システム1が行う処理の流れを示すシーケンス図である。まず、ユーザはアプリを起動させ、記載内容に関する質問を発話する。これに伴い、端末装置10は、音声を取得する(ステップS10)。端末装置10は、取得した音声情報に基づいた入力情報(音声情報そのもの、又は、音声を文字に変換した文字情報)を、サーバ装置40に送信する。
【0065】
サーバ装置40は、入力情報を受信し、受信した入力情報に基づき、検索情報を抽出し(ステップS11)、抽出した情報を印刷物DBサーバ20に通知する(ステップS12)。これにより、サーバ装置40は、印刷物DBサーバ20に、印刷物DB23を検索させる。サーバ装置40は、印刷物DBサーバ20から検索結果を取得する。
【0066】
サーバ装置40は、検索結果を取得し、追加質問を行うか否かを判定する(ステップS13)。サーバ装置40は、検索した結果、該当する記載内容が複数ある場合、追加質問を行うと判定する。一方、サーバ装置40は、検索した結果、該当する記載内容が1つであった場合、追加質問をしないと判定する。
【0067】
サーバ装置40は、追加質問をすると判定した場合、ステップS100に示す各処理(ステップS14~S17)を行う。一方、サーバ装置40は、追加質問をしないと判定した場合、ステップS18~S20に示す各処理を行う。
【0068】
サーバ装置40は、追加質問をすると判定した場合、検索結果を分類する(ステップS14)。サーバ装置40は、検索の結果、該当した複数の記載内容が、同一の印刷物に掲載されているか否か、同一のページに掲載されているか否かを判定することにより検索結果を分類する。サーバ装置40は、分類結果を対話シナリオDBサーバ30に通知し、対話シナリオDBサーバ30から、分類結果に応じた追加質問文の典型を取得する。
【0069】
サーバ装置40は、追加質問の質問文を作成する(ステップS15)。サーバ装置40は、例えば、対話シナリオDBサーバ30から取得した質問文の典型、ステップ14で行った分類の結果、及びステップS11で受信した入力情報が示す質問文などを用いて、追加質問の質問文を作成する。サーバ装置40は、作成した質問文に対応する出力情報(質問文の文字情報、又は、質問文を音声に変換した音声情報)を、端末装置10に送信する(ステップS16)。
【0070】
端末装置10は、出力情報を受信し、受信した出力情報に基づいて、追加質問の質問文を音声で出力させる(ステップS17)。端末装置10は、出力情報として質問文の文字情報を受信した場合、文字情報を音声に変換して出力する。一方、端末装置10は、出力情報として質問文の音声情報を受信した場合、音声情報をそのまま出力する。端末装置10から出力された追加質問の質問文を聞いたユーザは、追加質問に対する回答を発話する。端末装置10は、ステップS10に戻る。
【0071】
一方、ステップS13にて追加質問をしないと判定した場合、サーバ装置40は、回答文を生成する(ステップS18)。サーバ装置40は、例えば、ステップS12で取得した検索の結果、及びステップS11で受信した入力情報が示す質問文などを用いて、回答文を作成する。サーバ装置40は、作成した回答に対応する出力情報(回答文の文字情報、又は、回答文を音声に変換した音声情報)を、端末装置10に送信する(ステップS19)。
【0072】
端末装置10は、出力情報を受信し、受信した出力情報に基づいて、回答文を音声で出力させる(ステップS20)。端末装置10は、出力情報として回答文の文字情報を受信した場合、文字情報を音声に変換して出力する。一方、端末装置10は、出力情報として回答文の音声情報を受信した場合、音声情報をそのまま出力する。
【0073】
図6は、実施形態に係る特定システム1による端末装置10の表示例を示す図である。
図6の例では、端末装置10の表示例と共に、ユーザUが、印刷物Bの特定のページ(吹き出しに記載された、青い化粧品が掲載されたページ)を思い出している様子が模式的に示されている。
【0074】
ユーザUは、青い化粧品が掲載されたページの詳細を確認したいと思い、アプリを起動させて、端末装置10のマイクに向かって「青い色の化粧品って何ページに掲載されていますか」と質問を行う。この発話が文字に変換され、端末装置10の表示画面に表示される。サーバ装置40は、質問に基づく検索を行った結果、記載内容を特定するために追加質問を行う。追加質問は、まずは印刷物Bを特定しようとするもので、「対象の印刷物が特定できる情報を教えてください。」との質問である。この質問は、端末装置10のスピーカから音声出力されるとともに、端末装置10の表示画面に表示される。ユーザは、追加質問を聞いて、口頭で回答する。
【0075】
ユーザから追加質問に対する回答として「○○カタログ 化粧品特集」との発話があり、その回答に基づいて、サーバ装置40は、再度の検索を行い、ページを特定するための二つ目の追加質問を行う。二つ目の追加質問は、「(印刷物を)特定できました。「○○カタログ ムック 春号 化粧品大特集」ですね。対象(青い化粧品)の周囲に掲載されている情報を教えてください」というものである。このように、印刷物の名称が、正確なものでない場合であっても、印刷物Bを特定するようにしてよい。例えば、印刷物DBサーバ20は、検索に用いた文字列と類似する名称の印刷物であって、対象が掲載された対象物が印刷物情報テーブル230に登録されていた場合、その印刷物情報テーブル230を検索結果として抽出する。サーバ装置40は、検索結果に基づいて、類似する名称の印刷物に対象が掲載され、その他の印刷物に対象が掲載されていない場合には、その類似する名称の印刷物を、ユーザが意図する対象が掲載された印刷物と特定する。
【0076】
ユーザから二つ目の追加質問に対する回答として「右側にカレンダーが掲載されていた」との発話があり、その回答に基づいて、サーバ装置40は、再度の検索を行い、対象が掲載され、尚且つ、ページの中心部分にカレンダーが掲載されている記載内容を検索した結果、1つの記載内容のみが該当した場合にページを特定する。サーバ装置40は、特定した記載内容に基づいて、回答を行う。ここでの回答は、「139ページです」というものである。
【0077】
以上説明したように、実施形態に係るサーバ装置40は、取得部420と、対話制御部421と、特定部424と、出力部425とを備える。取得部420は、ユーザからの質問に対応する入力情報を取得する。対話制御部421は、取得部420によって取得された入力情報に基づいて、対象箇所を検索するための検索情報を抽出する。対象箇所は、印刷物に記載された記載内容に関する質問の対象となる箇所である。検索部422は、対話制御部421によって抽出された検索情報に基づいて、印刷物情報テーブル230を検索する。印刷物情報テーブル230は、記載内容ごとに当該記載内容の属性情報が対応付けられたテーブルである。特定部424は、検索部422によって検索された検索結果に基づいて、対象箇所を特定する。出力部425は、特定部424によって特定された対象箇所を示す情報を、ユーザからの質問の回答を示す出力情報として出力する。対話制御部421は、検索部422によって検索された検索結果が、所定条件を充足する場合、対象箇所を特定するための追加質問を示す情報を生成する。出力部425は、対話制御部421によって生成された追加質問を示す情報を、ユーザからの質問に対する質問を示す出力情報として出力する。
【0078】
これにより、実施形態に係るサーバ装置40は、ユーザが意図する記載内容が特定できない場合に追加質問を行うことができ、対話形式にて、記載内容が特定し、ユーザからの質問に回答することが可能である。また、サーバ装置40は、ユーザが口頭で話した質問に対して、追加質問や回答を、音声で出力することができる。このため、ユーザに手間をかけさせることなく、また、印刷物がユーザの手元にない場合であっても、ユーザが意図する印刷物や印刷物の記載内容を特定することができる。
【0079】
上述した実施形態における端末装置10、及び特定システム1の全部または一部をコンピュータで実現するようにしてもよい。その場合、この機能を実現するためのプログラムをコンピュータ読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピュータシステムに読み込ませ、実行することによって実現してもよい。なお、ここでいう「コンピュータシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピュータ読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM等の可搬媒体、コンピュータシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピュータ読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、短時間の間、動的にプログラムを保持するもの、その場合のサーバやクライアントとなるコンピュータシステム内部の揮発性メモリのように、一定時間プログラムを保持しているものも含んでもよい。また上記プログラムは、前述した機能の一部を実現するためのものであってもよく、さらに前述した機能をコンピュータシステムにすでに記録されているプログラムとの組み合わせで実現できるものであってもよく、FPGA等のプログラマブルロジックデバイスを用いて実現されるものであってもよい。
【0080】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【符号の説明】
【0081】
1…特定システム
10…端末装置
12…制御部
20…印刷物DBサーバ
23…印刷物DB
230…印刷物情報テーブル
40…サーバ装置(特定装置)
42…制御部
420…取得部
421…対話制御部
422…検索部
423…判定部
424…特定部
425…出力部