IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社リコーの特許一覧

特許7099397Q&A抽出装置、方法、プログラム、および応答システム
<>
  • 特許-Q&A抽出装置、方法、プログラム、および応答システム 図1
  • 特許-Q&A抽出装置、方法、プログラム、および応答システム 図2
  • 特許-Q&A抽出装置、方法、プログラム、および応答システム 図3
  • 特許-Q&A抽出装置、方法、プログラム、および応答システム 図4
  • 特許-Q&A抽出装置、方法、プログラム、および応答システム 図5
  • 特許-Q&A抽出装置、方法、プログラム、および応答システム 図6
  • 特許-Q&A抽出装置、方法、プログラム、および応答システム 図7
  • 特許-Q&A抽出装置、方法、プログラム、および応答システム 図8
  • 特許-Q&A抽出装置、方法、プログラム、および応答システム 図9
  • 特許-Q&A抽出装置、方法、プログラム、および応答システム 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-07-04
(45)【発行日】2022-07-12
(54)【発明の名称】Q&A抽出装置、方法、プログラム、および応答システム
(51)【国際特許分類】
   G06F 16/90 20190101AFI20220705BHJP
   G06F 40/279 20200101ALI20220705BHJP
【FI】
G06F16/90 100
G06F40/279
【請求項の数】 6
(21)【出願番号】P 2019078072
(22)【出願日】2019-04-16
(65)【公開番号】P2020177360
(43)【公開日】2020-10-29
【審査請求日】2021-03-04
(73)【特許権者】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(72)【発明者】
【氏名】高野 隆一
(72)【発明者】
【氏名】田附 朋之
(72)【発明者】
【氏名】渡辺 潔
【審査官】甲斐 哲雄
(56)【参考文献】
【文献】特開2006-092473(JP,A)
【文献】特開2011-123565(JP,A)
【文献】特開平11-003335(JP,A)
【文献】特表2018-513480(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06F 40/20-40/58
(57)【特許請求の範囲】
【請求項1】
質問と回答とのうちの少なくとも一方を識別するための指標を設定し、前記指標は、前記質問の始まりおよび終わり、および、前記回答の始まりおよび終わりを示す設定部と、
前記指標に基づいて、データの中から前記質問と前記回答とのうちの少なくとも一方を抽出する抽出部と
を備えた情報処理装置。
【請求項2】
質問者と回答者との会話の音声データを取得し、前記音声データをテキスト化して前記データを生成する音声取得部をさらに備え、
前記指標は、前記質問の始まりおよび終わり、および、前記回答の始まりおよび終わりに発せられるキーワードである、請求項1に記載の情報処理装置。
【請求項3】
ウェブページのうち、指定された範囲または前記ウェブページの全体から情報を収集し、前記情報をテキスト化して前記データを生成するウェブページ検索部をさらに備え、
前記指標は、前記ウェブページ内の隠し属性であり、
質問の始まりの隠し属性から質問の終わりの隠し属性までの間の文章が前記質問として抽出され、回答の始まりの隠し属性から回答の終わりの隠し属性までの間の文章が前記回答として抽出される、請求項1に記載の情報処理装置。
【請求項4】
コンピュータが実行する方法であって、
質問と回答とのうちの少なくとも一方を識別するための指標を設定し、前記指標は、前記質問の始まりおよび終わり、および、前記回答の始まりおよび終わりを示すステップと、
前記指標に基づいて、データの中から前記質問と前記回答とのうちの少なくとも一方を抽出するステップと
を含む方法。
【請求項5】
コンピュータを
質問と回答とのうちの少なくとも一方を識別するための指標を設定し、前記指標は、前記質問の始まりおよび終わり、および、前記回答の始まりおよび終わりを示す設定部、
前記指標に基づいて、データの中から前記質問と前記回答とのうちの少なくとも一方を抽出する抽出部、として機能させるためのプログラム。
【請求項6】
情報処理装置と、応答装置と、質問用装置とを含む応答システムであって、
前記情報処理装置は、
質問と回答とのうちの少なくとも一方を識別するための指標を設定し、前記指標は、前記質問の始まりおよび終わり、および、前記回答の始まりおよび終わりを示す設定部と、
前記指標に基づいて、データの中から前記質問と前記回答とのうちの少なくとも一方を抽出する抽出部と、を備え、
前記応答装置は、前記抽出部が抽出した前記質問および前記回答に基づいて、前記質問用装置から受信した質問に対して回答を送信し、
前記質問用装置は、前記応答装置へ質問を送信し、前記応答装置から回答を受信する、
応答システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、Q&A抽出装置、方法、プログラム、および応答システムに関する。
【背景技術】
【0002】
従来、音声やテキストによる人間からの質問に対してコンピュータが回答することができる自動応答システム(チャットボットとも呼ばれる)が知られている(特許文献1等)。
【0003】
このような自動応答システムでは、あらかじめ、多数の質問や回答(以下、Q&Aともいう)のデータを収集しておく必要がある。例えば、自動応答システムでは、収集した質問や回答のデータを教師データとして手作業により作成し、機械学習を行って自動応答のための学習済みモデルを生成したり(機械学習型の自動応答システムの場合)、あるいは、収集した質問や回答のデータをもとに自動応答のためのシナリオを手作業により作成したり(ルールベース型の自動応答システムの場合)する。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、多数の質問や回答を収集し、教師データや自動応答のためのシナリオを手作業で作成することは手間と時間がかかり容易ではない。
【0005】
そこで、本発明の一実施形態では、教師データ又は自動応答のためのシナリオを作成する負荷を軽減することを目的とする。
【課題を解決するための手段】
【0006】
上述した課題を解決するために、本発明の一実施形態は、質問と回答とのうちの少なくとも一方を識別するための指標を設定する設定部と、前記指標に基づいて、データの中から前記質問と前記回答とのうちの少なくとも一方を抽出する抽出部と、を備える。
【発明の効果】
【0007】
本発明の一実施形態によれば、教師データ又は自動応答のためのシナリオを作成する負荷を軽減することができる。
【図面の簡単な説明】
【0008】
図1】本発明の一実施形態に係るQ&A抽出装置を含む応答システムの全体の構成図である。
図2】本発明の一実施形態に係るQ&A抽出装置および応答装置のハードウェア構成図である。
図3】本発明の一実施形態に係る質問用装置のハードウェア構成図である。
図4】本発明の一実施形態に係る質問と回答の収集例を説明するための図である。
図5】本発明の一実施形態に係るQ&A抽出装置の機能ブロック図である。
図6】本発明の一実施形態に係る会話の音声内の指標を説明するための図である。
図7】本発明の一実施形態に係るウェブページ内のフォーマットによる指標を説明するための図である。
図8】本発明の一実施形態に係るQ&A記憶部に格納されるデータの一例である。
図9】本発明の一実施形態に係るQ&A抽出の処理のフローチャートである。
図10】本発明の一実施形態に係るQ&A抽出の処理のフローチャートである。
【発明を実施するための形態】
【0009】
以下、各実施形態について添付の図面を参照しながら説明する。なお、本明細書および図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複した説明を省略する。
【0010】
<システム構成>
図1は、本発明の一実施形態に係るQ&A抽出装置10(情報処理装置の一例)を含む応答システム1の全体の構成図である。図1に示されるように、応答システム1は、Q&A抽出装置(以下、単に抽出装置ともいう)10、応答装置20、質問用装置30を含む。応答装置20は、質問用装置30および抽出装置10と任意のネットワーク40によって通信可能に接続されている。以下、それぞれについて説明する。
【0011】
なお、図1では、抽出装置10と応答装置20とを別々の装置として説明しているが、抽出装置10と応答装置20とを1つの装置として実装する(例えば、既存の応答装置20内に抽出装置10を設置する)ようにしてもよい。
【0012】
Q&A抽出装置10は、応答装置20が提供する自動応答サービスのために用いられる質問データと回答データとのうちの少なくとも一方を抽出する装置である。具体的には、抽出装置10は、マイク51(図4を参照しながら後述する)によって取得された音声データの中から、質問データと回答データとのうちの少なくとも一方を抽出することができる。また、抽出装置10は、ウェブページの中から、質問データと回答データとのうちの少なくとも一方を抽出することができる。後段で、図5を参照しながら、Q&A抽出装置10について詳細に説明する。
【0013】
応答装置20は、質問用装置30からの質問に応答する装置である。具体的には、応答装置20は、質問用装置30から質問を受信する。また、応答装置20は、質問用装置30へ回答を送信する。
【0014】
応答装置20は、音声により質問を受け付ける構成としてもよいし、テキストにより質問を受け付ける構成としてもよい。また、応答装置20は、音声により応答する構成としてもよいし、テキストにより応答する構成としてもよい。
【0015】
応答装置20は、機械学習により生成された学習済みモデルに質問を入力することによって出力される回答を用いて応答する構成とすることができる。あるいは、応答装置20は、あらかじめ定められたシナリオに従って回答する構成とすることができる。つまり、応答装置20は、抽出装置10が抽出した質問や回答のデータを教師データとして機械学習を行って自動応答のための学習済みモデルを生成したり(機械学習型の場合)、あるいは、抽出装置10が抽出した質問や回答のデータをもとに自動応答のためのシナリオを生成したり(ルールベース型の場合)することができる。
【0016】
質問用装置30は、応答装置20が提供する自動応答サービスに対して質問をしたい者が利用する装置である。質問用装置30は、例えば、図3で説明するようなデジタルサイネージ31、コントローラ32、マイク33、スピーカ34から構成される。なお、質問用装置30は、パーソナルコンピュータ、タブレット、スマートフォン等の任意のコンピュータであってもよい。例えば、質問用装置30は、観光地に設置される観光地を案内するための装置であり、観光地の訪問者からの質問を受け付ける。
【0017】
<ハードウェア構成>
図2は、本発明の一実施形態に係るQ&A抽出装置10および応答装置20のハードウェア構成図である。抽出装置10、応答装置20は、1または複数のコンピュータからなる。
【0018】
抽出装置10、応答装置20は、CPU(Central Processing Unit)11、ROM(Read Only Memory)12、RAM(Random Access Memory)13を有する。CPU11、ROM12、RAM13は、いわゆるコンピュータを形成する。
【0019】
また、抽出装置10、応答装置20は、補助記憶装置14、表示装置15、操作装置16、I/F(Interface)装置17、ドライブ装置18を有する。なお、抽出装置10、応答装置20の各ハードウェアは、バス19を介して相互に接続されている。
【0020】
CPU11は、補助記憶装置14にインストールされている各種プログラムを実行する演算デバイスである。
【0021】
ROM12は、不揮発性メモリである。ROM12は、補助記憶装置14にインストールされている各種プログラムをCPU11が実行するために必要な各種プログラム、データ等を格納する主記憶デバイスとして機能する。具体的には、ROM12はBIOS(Basic Input/Output System)やEFI(Extensible Firmware Interface)等のブートプログラム等を格納する、主記憶デバイスとして機能する。
【0022】
RAM13は、DRAM(Dynamic Random Access Memory)やSRAM(Static Random Access Memory)等の揮発性メモリである。RAM13は、補助記憶装置14にインストールされている各種プログラムがCPU11によって実行される際に展開される作業領域を提供する、主記憶デバイスとして機能する。
【0023】
補助記憶装置14は、各種プログラムや、各種プログラムが実行される際に用いられる情報を格納する補助記憶デバイスである。
【0024】
表示装置15は、抽出装置10、応答装置20の内部状態等を表示する表示デバイスである。
【0025】
操作装置16は、抽出装置10、応答装置20の管理者が抽出装置10、応答装置20に対して各種指示を入力する入力デバイスである。
【0026】
I/F装置17は、ネットワーク40に接続し、抽出装置10、応答装置20、質問用装置30と通信を行うための通信デバイスである。
【0027】
ドライブ装置18は記憶媒体21をセットするためのデバイスである。ここでいう記憶媒体21には、CD-ROM、フレキシブルディスク、光磁気ディスク等のように情報を光学的、電気的あるいは磁気的に記録する媒体が含まれる。また、記憶媒体21には、EPROM (Erasable Programmable Read Only Memory)、フラッシュメモリ等のように情報を電気的に記録する半導体メモリ等が含まれていてもよい。
【0028】
なお、補助記憶装置14にインストールされる各種プログラムは、例えば、配布された記憶媒体21がドライブ装置18にセットされ、該記憶媒体21に記録された各種プログラムがドライブ装置18により読み出されることでインストールされる。あるいは、補助記憶装置14にインストールされる各種プログラムは、I/F装置17を介して、ネットワーク40とは異なる他のネットワークよりダウンロードされることでインストールされてもよい。
【0029】
図3は、本発明の一実施形態に係る質問用装置30のハードウェア構成図である。図3に示されるように、質問用装置30は、デジタルサイネージ31、コントローラ32、マイク33、スピーカ34を含むことができる。
【0030】
デジタルサイネージ31は、例えば、タッチパネル式のサイネージである。デジタルサイネージ31は、例えば、ウェブブラウザを介して、ユーザに自動応答サービスを提供することができる。具体的には、デジタルサイネージ31は、マイク33に向かって質問を発するよう促す画面を表示することができる。また、デジタルサイネージ31は、タッチパネルを用いて質問を入力するよう促す画面を表示することができる。また、デジタルサイネージ31は、応答装置20から送信された回答を表示することができる。
【0031】
コントローラ32は、デジタルサイネージ31を制御するための装置である。
【0032】
マイク33は、応答装置20が提供する自動応答サービスに対して質問をしたい者が発した音声(質問)を取得する。
【0033】
スピーカ34は、応答装置20から送信された音声データ(回答)を再生する。
【0034】
図4は、本発明の一実施形態に係る質問と回答の収集例を説明するための図である。図4に示されるように、質問者60(例えば、観光地を訪問した訪問者)と回答者50(例えば、観光地を案内する案内者)の会話が、回答者50が装着しているマイク51によって録音される。Q&A抽出装置10は、このように取得された会話の音声データの中から、質問データと回答データとのうちの少なくとも一方を抽出することができる。
【0035】
<機能ブロック>
図5は、本発明の一実施形態に係るQ&A抽出装置10の機能ブロック図である。図5に示されるように、抽出装置10は、設定部101、音声取得部102、ウェブページ検索部103、抽出部104、Q&A記憶部105を含む。また、抽出装置10は、プログラムを実行することで、設定部101、音声取得部102、ウェブページ検索部103、抽出部104として機能する。以下、それぞれについて説明する。
【0036】
設定部101は、質問文や回答文を識別するための指標を設定する。具体的には、設定部101は、抽出装置10の操作装置16または他のコンピュータ等によって入力された設定を受け付ける。また、設定部101は、受け付けた設定を抽出部104が参照できるように抽出装置10内等のメモリに記憶する。
【0037】
ここで、質問文や回答文を識別するための指標について説明する。以下、<会話の音声内の指標>、<ウェブページ内のフォーマットによる指標>、<ウェブページ内の自然言語解析による指標>の3つの例について説明する。
【0038】
<会話の音声内の指標>
設定部101は、質問者と回答者との会話(例えば、観光地の案内者と訪問者との会話)内で、質問文の始まりおよび終わり、および、回答文の始まりおよび終わりに発せられるべき文言(以下、キーワードともいう)を、質問文や回答文を識別するための指標として設定することができる。以下、図6を参照しながら、<会話の音声内の指標>について詳細に説明する。
【0039】
図6は、本発明の一実施形態に係る会話の音声内の指標を説明するための図である。図6では、左から右へ時間が経過する。例えば、質問文の始まりのキーワードを「はい、ご質問ですね」とし、質問文の終わりのキーワードを「あなたのご質問は以上ですね」とし、回答の始まりを「それに対する答えは」とし、回答の終わりを「以上です」とする。回答する人(あるいは質問する人)がこれらのキーワードを発することによって、質問文の始まりのキーワード(「はい、ご質問ですね」)から質問文の終わりのキーワード(「あなたのご質問は以上ですね」)までの間に発せられた音声が質問文であると識別されることとなる。また、回答する人(あるいは質問する人)がこれらのキーワードを発することによって、回答文の始まりのキーワード(「それに対する答えは」)から回答文の終わりのキーワード(「以上です」)までの間に発せられた音声が回答文であると識別されることとなる。
【0040】
なお、会話の終わりのキーワードを設定することによって、会話が終了したことを識別できるようにしてもよい。あるいは、会話の始まりおよび終わりのキーワードを設定することによって、会話の始まりのキーワードから会話の終わりのキーワードまでの間に発せられた音声が、1つの会話であると識別できるようにしてもよい。
【0041】
<ウェブページ内のフォーマットによる指標>
設定部101は、ウェブページ内の所定のフォーマットを、質問文や回答文を識別するための指標として設定することができる。以下、図7を参照しながら、<ウェブページ内のフォーマットによる指標>について詳細に説明する。
【0042】
図7は、本発明の一実施形態に係るウェブページ内のフォーマットによる指標を説明するための図である。図7は、FAQ(よくある質問とその回答)のウェブページを示す。FAQのウェブページが所定のフォーマットで作成されると、質問文のフォーマットで記載された文章は質問文であると識別され、回答文のフォーマットで記載された文章は回答文であると識別されることとなる。以下、2つのフォーマット例を説明する。なお、<<フォーマット例1>>と<<フォーマット例2>>とを組み合わせてもよい。
【0043】
<<フォーマット例1>>
例えば、設定部101は、HTML(HyperText Markup Language)の所定の属性(例えば、隠し属性<hidden>)を、質問文や回答文を識別するための指標として設定することができる。そのため、FAQのウェブページの作成者は、隠し属性<hidden>を用いて、質問文の始まりおよび終わり、および、回答文の始まりおよび終わりを指定することができる。なお、質問文の始まりおよび終わり、および、回答文の始まりおよび終わりの指定は、隠し属性<hidden>であるので、図7のように、ユーザのウェブブラウザ上には表示されない。
【0044】
なお、一連の文章の終わりの隠し属性<hidden>を設定することによって、一連の文章が終了したことを識別できるようにしてもよい。あるいは、一連の文章の始まりおよび終わりの隠し属性<hidden>を設定することによって、一連の文章の始まりの隠し属性<hidden>から一連の文章の終わりの隠し属性<hidden>までの間に記載された文章が、1つのFAQの対であると識別できるようにしてもよい。
【0045】
<<フォーマット例2>>
例えば、設定部101は、ウェブページ内で文章が配置される位置を、質問文や回答文を識別するための指標として設定することができる。そのため、FAQのウェブページの作成者は、例えば、図7のように、左側の欄に配置される文章を質問文、右側の欄に配置される文章を回答文と指定することができる。
【0046】
<ウェブページ内の自然言語解析による指標>
設定部101は、質問または質問内の一部の文言を、回答文を識別するための指標として設定することができる。例えば、設定部101は、質問者が質問用装置30に入力した質問または質問内の一部の文言、あるいは、応答システム1のシステム管理者等が指定した質問または質問内の一部の文言を、指標として設定することができる。
【0047】
図5の説明に戻る。音声取得部102は、質問者と回答者との会話の音声データを取得する。例えば、音声取得部102は、回答者が装着しているマイク51(図4参照)が集音した質問者と回答者との会話の音声データを取得する。また、音声取得部102は、取得した音声データをテキスト化して文書データを生成する。また、音声取得部102は、生成した文書データを抽出部104が参照できるように抽出装置10内等のメモリに記憶する。
【0048】
なお、本発明の一実施形態では、Q&A抽出装置10は、音声データをテキスト化して文書データを生成することなく、音声データのままで処理を行う(つまり、音声データから質問文、回答文を特定して抽出する)構成とすることもできる。
【0049】
ウェブページ検索部103は、ウェブページ(HTML)を取得する。例えば、ウェブページ検索部103は、指定された範囲または全てのウェブページから情報を収集(クロール)する。また、ウェブページ検索部103は、収集した情報をテキスト化して文書データを生成する。また、ウェブページ検索部103は、生成した文書データを抽出部104が参照できるように抽出装置10内等のメモリに記憶する。
【0050】
抽出部104は、音声取得部102が生成した文書データ、ウェブページ検索部103が生成した文書データの中から、設定部101が設定した指標に基づいて、質問と回答とのうちの少なくとも一方を抽出する。また、抽出部104は、抽出した質問および回答をQ&A記憶部105に記憶する。以下、<会話の音声内の指標に基づいて抽出>、<ウェブページ内のフォーマットによる指標に基づいて抽出>、<ウェブページ内の自然言語解析による指標に基づいて抽出>の3つの例に分けて説明する。
【0051】
<会話の音声内の指標に基づいて抽出>
抽出部104は、音声取得部102が生成した文書データの中から、設定部101によって設定された質問文の始まりおよび終わり、および、回答文の始まりおよび終わりに発せられるべきキーワードを検索する。また、抽出部104は、質問文の始まりのキーワードから質問文の終わりのキーワードまでの間の文章を質問として抽出する。また、抽出部104は、回答文の始まりのキーワードから回答文の終わりのキーワードまでの間の文章を回答として抽出する。
【0052】
このように、<会話の音声内の指標に基づいて抽出>では、回答する人(あるいは質問する人)は、所定のキーワードを発するだけで会話内の質問と回答とをQ&Aとして登録することができる。また、所定のキーワードが発せられないかぎり質問と回答とが登録されないので、不必要な会話(例えば、応答装置20が必要としない情報)が登録されずに済む。
【0053】
<ウェブページ内のフォーマットによる指標に基づいて抽出>
抽出部104は、ウェブページ検索部103が生成した文書データの中から、設定部101によって設定されたフォーマットで記載された文章を抽出する。以下、上述した2つのフォーマット例に分けて説明する。
【0054】
<<フォーマット例1のウェブページからの抽出>>
例えば、抽出部104は、ウェブページ検索部103が生成した文書データの中から、設定部101によって設定されたHTMLの所定の属性(例えば、隠し属性<hidden>)を検索する。また、抽出部104は、HTMLの所定の属性(例えば、隠し属性<hidden>)を用いて指定された、質問文の始まりおよび終わり、および、回答文の始まりおよび終わりを検索する。また、抽出部104は、質問文の始まりの隠し属性<hidden>から質問文の終わりの隠し属性<hidden>までの間の文章を質問として抽出する。また、抽出部104は、回答文の始まりの隠し属性<hidden>から回答文の終わりの隠し属性<hidden>までの間の文章を回答として抽出する。
【0055】
<<フォーマット例2のウェブページからの抽出>>
例えば、抽出部104は、ウェブページ検索部103が生成した文書データの中から、設定部101によって設定された位置に配置される文章を検索する。また、抽出部104は、質問文が配置されるべきと設定部101によって設定された位置にある文章を質問として抽出する。また、抽出部104は、回答文が配置されるべきと設定部101によって設定された位置にある文章を回答として抽出する。
【0056】
このように、<ウェブページ内のフォーマットによる指標に基づいて抽出>では、ウェブページの作成者は、所定のフォーマットでFAQを記載するだけでFAQ内の質問と回答とをQ&Aとして登録することができる。また、ウェブページ内のFAQが更新されると、更新されたFAQ内の質問と回答とが自動的にQ&Aとして登録される。
【0057】
<ウェブページ内の自然言語解析による指標に基づいて抽出>
抽出部104は、ウェブページ検索部103が生成した文書データを自然言語解析し、設定部101によって設定された質問または質問内の一部の文言に対する回答を抽出する。
【0058】
ここで、<ウェブページ内の自然言語解析による指標に基づいて抽出>が行われるタイミングの例について説明する。
【0059】
<タイミング1>
応答装置20が、<会話の音声内の指標に基づいて抽出>や<ウェブページ内のフォーマットによる指標に基づいて抽出>によって事前に収集された質問および回答を用いて稼働中であるとする。抽出部104は、応答装置20が質問用装置30からの質問に対する回答を見つけ出せないときに、<ウェブページ内の自然言語解析による指標に基づいて抽出>によって回答を見つけ出す構成とすることができる。
【0060】
<タイミング2>
抽出部104は、<会話の音声内の指標に基づいて抽出>や<ウェブページ内のフォーマットによる指標に基づいて抽出>と同様に、<ウェブページ内の自然言語解析による指標に基づいて抽出>によって回答を収集する構成とすることができる。応答装置20は、<会話の音声内の指標に基づいて抽出><ウェブページ内のフォーマットによる指標に基づいて抽出><ウェブページ内の自然言語解析による指標に基づいて抽出>によって収集された質問および回答を用いて稼働することができる。
【0061】
Q&A記憶部105は、抽出部104が抽出した質問および回答を格納する。以下、図8を参照しながら、Q&A記憶部105に格納されるデータについて詳細に説明する。
【0062】
図8は、本発明の一実施形態に係るQ&A記憶部105に格納されるデータの一例である。図8に示されるように、Q&A記憶部105には、質問のデータと回答のデータとが対応付けられて格納される。上述した<会話の音声内の指標に基づいて抽出><ウェブページ内のフォーマットによる指標に基づいて抽出>では、抽出部104が抽出した質問と回答とが対応付けられて格納される。また、上述した<ウェブページ内の自然言語解析による指標に基づいて抽出>では、指標となった質問と、抽出部104が抽出した回答とが対応付けられて格納される。
【0063】
なお、図8に示されるように、質問のデータは、質問文だけでなく、質問文に含まれる検索キーワード(質問用装置30で指定されるであろうキーワード)も格納するようにしてもよい。また、回答のデータは、回答文だけでなく、応答装置20が応答する際のキャラクターの声、動作、遷移するURLも格納するようにしてもよい。
【0064】
図9は、本発明の一実施形態に係るQ&A抽出<会話の音声内の指標に基づいて抽出>
の処理のフローチャートである。
【0065】
ステップ11(S11)において、音声取得部102は、質問者と回答者との会話の音声データを取得する。
【0066】
ステップ12(S12)において、音声取得部102は、S11で取得した音声データを解析する。具体的には、音声取得部102は、S11で取得した音声データをテキスト化して文書データを生成する。そして、音声取得部102は、生成した文書データを抽出部104が参照できるように抽出装置10内等のメモリに記憶する。
【0067】
ステップ13(S13)において、抽出部104は、S12で生成された文書データの中から、設定部101によって設定された会話の終わりのキーワードを時間の経過に沿って検索する。会話の終わりのキーワードが検出された場合には処理を終了し、検出されなかった場合にはステップ14へ進む。
【0068】
ステップ14(S14)において、抽出部104は、S12で生成された文書データの中から、設定部101によって設定された質問文の始まりのキーワードを時間の経過に沿って検索する。質問文の始まりのキーワードが検出された場合にはステップ15へ進み、検出されなかった場合にはステップ16へ進む。
【0069】
ステップ15(S15)において、抽出部104は、S12で生成された文書データの中から、設定部101によって設定された質問文の終わりのキーワードを時間の経過に沿って検索する。そして、抽出部104は、質問文の始まりのキーワードから質問文の終わりのキーワードまでの間の文章を質問として抽出して、Q&A記憶部105に記憶する。
【0070】
ステップ16(S16)において、抽出部104は、S12で生成された文書データの中から、設定部101によって設定された回答文の始まりのキーワードを時間の経過に沿って検索する。回答文の始まりのキーワードが検出された場合にはステップ17へ進み、検出されなかった場合にはステップ11へ戻る。
【0071】
ステップ17(S17)において、抽出部104は、S12で生成された文書データの中から、設定部101によって設定された回答文の終わりのキーワードを時間の経過に沿って検索する。そして、抽出部104は、回答文の始まりのキーワードから回答文の終わりのキーワードまでの間の文章を回答として抽出して、Q&A記憶部105に記憶する。
【0072】
図10は、本発明の一実施形態に係るQ&A抽出<ウェブページ内のフォーマットによる指標に基づいて抽出>の処理のフローチャートである。
【0073】
ステップ21(S21)において、ウェブページ検索部103は、ウェブページ(HTML)を取得する。具体的には、ウェブページ検索部103は、指定された範囲または全てのウェブページから情報を収集(クロール)する。
【0074】
ステップ22(S22)において、ウェブページ検索部103は、S21で取得したウェブページを解析する。具体的には、ウェブページ検索部103は、収集した情報をテキスト化して文書データを生成する。そして、ウェブページ検索部103は、生成した文書データを抽出部104が参照できるように抽出装置10内等のメモリに記憶する。
【0075】
ステップ23(S23)において、抽出部104は、S22で生成された文書データの中から、設定部101によって設定された一連の文章の終わりの隠し属性<hidden>を先頭から順に検索する。一連の文章の終わりの隠し属性<hidden>が検出された場合には処理を終了し、検出されなかった場合にはステップ24へ進む。
【0076】
ステップ24(S24)において、抽出部104は、S22で生成された文書データの中から、設定部101によって設定された質問文の始まりの隠し属性<hidden>を先頭から順に検索する。質問文の始まりの隠し属性<hidden>が検出された場合にはステップ25へ進み、検出されなかった場合にはステップ26へ進む。
【0077】
ステップ25(S25)において、抽出部104は、S22で生成された文書データの中から、設定部101によって設定された質問文の終わりの隠し属性<hidden>を先頭から順に検索する。そして、抽出部104は、質問文の始まりの隠し属性<hidden>から質問文の終わりの隠し属性<hidden>までの間の文章を質問として抽出して、Q&A記憶部105に記憶する。
【0078】
ステップ26(S26)において、抽出部104は、S22で生成された文書データの中から、設定部101によって設定された回答文の始まりの隠し属性<hidden>を先頭から順に検索する。回答文の始まりの隠し属性<hidden>が検出された場合にはステップ27へ進み、検出されなかった場合にはステップ21へ戻る。
【0079】
ステップ27(S27)において、抽出部104は、S22で生成された文書データの中から、設定部101によって設定された回答文の終わりの隠し属性<hidden>を先頭から順に検索する。そして、抽出部104は、回答文の始まりの隠し属性<hidden>から回答文の終わりの隠し属性<hidden>までの間の文章を回答として抽出して、Q&A記憶部105に記憶する。
【0080】
上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)や従来の回路モジュール等のデバイスを含むものとする。
【0081】
なお、上記実施形態に挙げた構成等に、その他の要素との組み合わせ等、ここで示した構成に本発明が限定されるものではない。これらの点に関しては、本発明の趣旨を逸脱しない範囲で変更することが可能であり、その応用形態に応じて適切に定めることができる。
【符号の説明】
【0082】
1 応答システム
10 Q&A抽出装置
20 応答装置
30 質問用装置
40 ネットワーク
31 デジタルサイネージ
32 コントローラ
33 マイク
34 スピーカ
50 回答者
51 マイク
60 質問者
101 設定部
102 音声取得部
103 ウェブページ検索部
104 抽出部
105 Q&A記憶部
【先行技術文献】
【特許文献】
【0083】
【文献】特開2001-256036号公報
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10