IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特開2023-91791回答候補提案システムおよび回答候補提案方法
<>
  • 特開-回答候補提案システムおよび回答候補提案方法 図1
  • 特開-回答候補提案システムおよび回答候補提案方法 図2
  • 特開-回答候補提案システムおよび回答候補提案方法 図3
  • 特開-回答候補提案システムおよび回答候補提案方法 図4
  • 特開-回答候補提案システムおよび回答候補提案方法 図5
  • 特開-回答候補提案システムおよび回答候補提案方法 図6
  • 特開-回答候補提案システムおよび回答候補提案方法 図7
  • 特開-回答候補提案システムおよび回答候補提案方法 図8
  • 特開-回答候補提案システムおよび回答候補提案方法 図9
  • 特開-回答候補提案システムおよび回答候補提案方法 図10
  • 特開-回答候補提案システムおよび回答候補提案方法 図11
  • 特開-回答候補提案システムおよび回答候補提案方法 図12
  • 特開-回答候補提案システムおよび回答候補提案方法 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023091791
(43)【公開日】2023-07-03
(54)【発明の名称】回答候補提案システムおよび回答候補提案方法
(51)【国際特許分類】
   G06F 16/90 20190101AFI20230626BHJP
【FI】
G06F16/90 100
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2021206569
(22)【出願日】2021-12-21
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110001689
【氏名又は名称】青稜弁理士法人
(72)【発明者】
【氏名】齊藤 剛
(72)【発明者】
【氏名】荻野 敦
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175EA01
5B175FA01
5B175HA02
5B175HB03
(57)【要約】
【課題】新規質問文章に対して、好適な回答候補文章を生成すること。
【解決手段】プロセッサと、記憶装置とを備え、記憶装置は、過去の質問文章と、当該過去の質問文章に対する過去の回答文章を対応付けて保存する質問回答データベースを格納し、プロセッサは、質問回答データベースに保存された過去の質問文章および新規質問文章に基づいて生成された項目候補単語群からユーザが選択した項目単語群および新規質問文章が入力されると、項目単語群および新規質問文章に基づいて項目単語群を含む質問情報を生成し、質問回答データベースに保存された過去の質問文章それぞれに対して、質問情報との類似度を算出し、類似度に基づいて質問回答データベースから質問情報に類似する過去の質問文章を抽出し、抽出した質問情報に類似する過去の質問文章に対応付けられた過去の回答文章を質問回答データベースから抽出して、第1の回答候補文章とする。
【選択図】図12
【特許請求の範囲】
【請求項1】
新規質問文章に対する回答文章の候補となる回答候補文章を生成する回答候補提案システムであって、
プロセッサと、記憶装置とを備え、
前記記憶装置は、
過去の質問文章と、当該過去の質問文章に対する過去の回答文章を対応付けて保存する質問回答データベースを格納し、
前記プロセッサは、
前記新規質問文章が入力されると、
前記質問回答データベースに保存された前記過去の質問文章および前記新規質問文章に基づいて項目候補単語群を生成し、
さらに、生成された項目候補単語群からユーザが選択した項目単語群が入力されると、
前記項目単語群と前記新規質問文章に基づいて、前記項目単語群を含む質問情報を生成し、
前記質問回答データベースに保存された前記過去の質問文章それぞれに対して、前記質問情報との類似度を算出し、
前記質問情報との類似度に基づいて前記質問回答データベースから前記質問情報に類似する過去の質問文章を抽出し、
抽出した前記質問情報に類似する過去の質問文章に対応付けられた過去の回答文章を前記質問回答データベースから抽出して、第1の回答候補文章とする、
回答候補提案システム。
【請求項2】
請求項1に記載の回答候補提案システムであって、
前記記憶装置は、さらに、疑問があることを表す疑問詞および要望があることを表す要望語を保存する疑問詞要望語リストを格納し、
前記プロセッサは、
前記疑問詞要望語リストに保存された前記疑問詞および前記要望語を少なくとも一つ含む疑問要望文を、前記新規質問文章から抽出し、
抽出した前記疑問要望文に前記項目単語群を加えて前記質問情報を生成する、
回答候補提案システム。
【請求項3】
請求項1に記載の回答候補提案システムであって、
前記質問情報との類似度は、前記質問回答データベースを用いて算出されるtf-idf法のコサイン類似度である、
回答候補提案システム。
【請求項4】
請求項1に記載の回答候補提案システムであって、
さらに、ネットワークに接続され当該ネットワークを介して情報の送受信が可能な送受信装置を備え、
前記プロセッサは、前記第1の回答候補文章を、前記送受信装置に出力する、
回答候補提案システム。
【請求項5】
請求項1に記載の回答候補提案システムであって、
さらに、少なくとも1つの単語を受信すると受信した前記単語に関するWEBサイトの情報を含む検索結果を返すウェブ検索エンジンに接続されたネットワークに接続され、当該ネットワークを介して前記ウェブ検索エンジンに情報の送受信が可能な送受信装置を備え、
前記プロセッサは、
前記項目単語群および前記新規質問文章に基づいて検索単語群を生成し、
生成した前記検索単語群を前記送受信装置が前記ウェブ検索エンジンに送信するよう、前記送受信装置に前記検索単語群を出力し、
前記送受信装置が前記ウェブ検索エンジンから受信した前記検索単語群に関する検索結果を取得し、
取得した前記検索単語群に関する検索結果に基づいて第2の回答候補文章を生成する、
回答候補提案システム。
【請求項6】
請求項5に記載の回答候補提案システムであって、
前記記憶装置は、さらに、疑問があることを表す疑問詞および要望があることを表す要望語を保存する疑問詞要望語リストを格納し、
前記プロセッサは、
前記疑問詞要望語リストに保存された前記疑問詞または前記要望語を少なくとも一つ含む疑問要望文を、前記新規質問文章から抽出し、
前記疑問要望文に前記項目単語群を加えて前記質問情報を生成し、
前記質問情報を形態素解析して、複数の質問情報形態素を生成し、
前記複数の質問情報形態素それぞれのtf-idf法の重要度を、質問回答データベースを用いて算出し、
前記複数の質問情報形態素それぞれの前記tf-idf法の重要度に基づいて前記複数の質問情報形態素から前記検索単語群を生成する、
回答候補提案システム。
【請求項7】
請求項6に記載の回答候補提案システムであって、
前記記憶装置は、さらに、個人情報を表す複数の個人情報単語を保存する個人情報単語リストを格納し、
前記プロセッサは、
前記複数の質問情報形態素から、前記tf-idf法の重要度が高い複数の質問情報形態素を抽出し、さらに、前記個人情報単語リストに保存されている少なくとも1つの前記個人情報単語を除いて、前記検索単語群を生成する、
回答候補提案システム。
【請求項8】
請求項5に記載の回答候補提案システムであって、
前記ウェブ検索エンジンが返す前記検索結果は、前記WEBサイトの概要文を含み、
前記プロセッサは、前記検索単語群に関する検索結果に含まれるWEBサイトの概要文に基づいて第2の回答候補文章を生成する、
回答候補提案システム。
【請求項9】
請求項8に記載の回答候補提案システムであって、
前記プロセッサは、前記検索単語群に関する検索結果に含まれるWEBサイトの概要文を所定の順位付け方法で順位を付け、順位が上位の前記WEBサイトの概要文を第2の回答候補文章とする、
回答候補提案システム。
【請求項10】
新規質問文章に対する回答文章の候補となる回答候補文章を生成する回答候補提案システムであって、
プロセッサと、記憶装置とを備え、
前記記憶装置は、
過去の質問文章と、当該過去の質問文章に対する過去の回答文章を対応付けて保存する質問回答データベースを格納し、
前記プロセッサは、
前記新規質問文章が入力された場合には、
前記質問回答データベースに保存された前記過去の質問文章それぞれに対して、前記新規質問文章との類似度を算出し、
算出した、前記新規質問文章との類似度に基づいて、前記新規質問文章に類似する前記過去の質問文章を抽出し、
抽出した前記過去の質問文章を形態素解析して、複数の過去質問文章形態素を生成し、
複数の過去質問文章形態それぞれの重要度を算出し、
前記複数の過去質問文章形態素から前記重要度の高い過去質問文章形態素を抽出して、項目候補単語群とし、
前記項目候補単語群からユーザが選択した項目単語群および前記新規質問文章が入力された場合には、
前記項目単語群および前記新規質問文章に基づいて前記項目単語群を含む質問情報を生成し、
前記質問回答データベースに保存された前記過去の質問文章それぞれに対して、前記質問情報との類似度を算出し、
前記質問情報との類似度に基づいて前記質問回答データベースから前記質問情報に類似する過去の質問文章を抽出し、
抽出した前記質問情報に類似する過去の質問文章に対応付けられた過去の回答文章を前記質問回答データベースから抽出して、第1の回答候補文章とする、
回答候補提案システム。
【請求項11】
請求項10に記載の回答候補提案システムであって、
前記新規質問文章との類似度は、前記質問回答データベースを用いて算出されるtf-idf法のコサイン類似度であり、
前記複数の過去質問文章形態素それぞれの重要度は、前記質問回答データベースを用いて算出されるtf-idf法の重要度である、
回答候補提案システム。
【請求項12】
新規質問文章に対する回答文章の候補となる回答候補文章を生成する回答候補提案システムにおける回答候補提案方法であって、
回答候補提案システムの記憶装置は、過去の質問文章と、当該過去の質問文章に対する過去の回答文章を対応付けて保存する質問回答データベースを格納し、
前記新規質問文章が入力されると、
前記質問回答データベースに保存された前記過去の質問文章および前記新規質問文章に基づいて項目候補単語群を生成し、
さらに、生成された項目候補単語群からユーザが選択した項目単語群が入力されると、
前記項目単語群と前記新規質問文章に基づいて、前記項目単語群を含む質問情報を生成し、
前記質問回答データベースに保存された前記過去の質問文章それぞれに対して、前記質問情報との類似度を算出し、
前記質問情報との類似度に基づいて前記質問回答データベースから前記質問情報に類似する過去の質問文章を抽出し、
抽出した前記質問情報に類似する過去の質問文章に対応付けられた過去の回答文章を前記質問回答データベースから抽出して、第1の回答候補文章とする、
回答候補提案方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、新規質問文章に対する回答文章の候補となる回答候補文章を生成する回答候補提案システムおよび回答候補提案方法に関する。
【背景技術】
【0002】
インターネットや公衆通信網を介して得られたユーザの新規質問文章に対する回答文章の候補となる回答候補文章を生成する技術がある。例えば、特許文献1には、質問文字列を複数の形態素(単語)に分解し、得られた複数の形態素に基づいて、蓄積された過去の回答文字列群から回答文字列を選択して出力する技術が開示されている。
【0003】
また、特許文献2には、質問文を形態素解析して複数の形態素に分解し、得られた複数の形態素から生成した検索クエリを用いて検索処理を行い、検索結果から回答候補の文の集合を抽出し、抽出した回答候補の文の集合に含まれる回答候補の文をランキングする技術が開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2018-181033号公報
【特許文献2】特開2013-254420号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、新規質問文章が、質問の意図と関係のない単語を多く含む場合には、質問文書を形態素解析して得られる複数の形態素は、質問の意図と関係のない単語を多く含む。この場合に、特許文献1に記載の技術では、質問文字列を形態素解析して得られる、質問の意図と関係のない単語を多く含む複数の形態素に基づいて、過去の回答文字列群から回答文字列を選択して出力する。このため、出力する回答文字列は、質問の意図と関係のない多くの単語に関連する回答文字列となる。従って、特許文献1に記載の技術では、出力する回答文字列は、ユーザの質問の意図に沿わない、不適切な回答文字列となるおそれがある。
【0006】
また、上記の場合に、特許文献2に記載の技術では、質問文を形態素解析して得られる、質問の意図と関係のない単語を多く含む複数の形態素から検索クエリ生成し、検索クエリを用いて検索処理を行う。検索結果は、検索クエリに含まれる、複数の形態素に多く含まれる質問の意図と関係のない単語の影響を受ける。このため、検索結果から抽出される回答候補の文は、内容が質問の意図と関係が弱いおそれがある。従って、特許文献2に記載の技術では、回答候補の文は不適切な回答候補の文となるおそれがある。
【0007】
そこで、本発明の目的は、新規質問文章に対して好適な回答候補文章を出力する回答候補提案システムおよび回答候補提案方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
上記目的を達成するため、本発明の回答候補提案システムの一態様は、新規質問文章に対する回答文章の候補となる回答候補文章を生成する回答候補提案システムであって、プロセッサと、記憶装置とを備え、前記記憶装置は、過去の質問文章と、当該過去の質問文章に対する過去の回答文章を対応付けて保存する質問回答データベースを格納し、前記プロセッサは、前記新規質問文章が入力されると、前記質問回答データベースに保存された前記過去の質問文章および前記新規質問文章に基づいて項目候補単語群を生成し、さらに、生成された項目候補単語群からユーザが選択した項目単語群が入力されると、前記項目単語群と前記新規質問文章に基づいて、前記項目単語群を含む質問情報を生成し、前記質問回答データベースに保存された前記過去の質問文章それぞれに対して、前記質問情報との類似度を算出し、前記質問情報との類似度に基づいて前記質問回答データベースから前記質問情報に類似する過去の質問文章を抽出し、抽出した前記質問情報に類似する過去の質問文章に対応付けられた過去の回答文章を前記質問回答データベースから抽出して、第1の回答候補文章とする。
【0009】
また、本発明の回答候補提案システムの回答候補提案方法の一態様は、新規質問文章に対する回答文章の候補となる回答候補文章を生成する回答候補提案システムにおける回答候補提案方法であって、回答候補提案システムの記憶装置は、過去の質問文章と、当該過去の質問文章に対する過去の回答文章を対応付けて保存する質問回答データベースを格納し、前記新規質問文章が入力されると、前記質問回答データベースに保存された前記過去の質問文章および前記新規質問文章に基づいて項目候補単語群を生成し、さらに、生成された項目候補単語群からユーザが選択した項目単語群が入力されると、前記項目単語群と前記新規質問文章に基づいて、前記項目単語群を含む質問情報を生成し、前記質問回答データベースに保存された前記過去の質問文章それぞれに対して、前記質問情報との類似度を算出し、前記質問情報との類似度に基づいて前記質問回答データベースから前記質問情報に類似する過去の質問文章を抽出し、抽出した前記質問情報に類似する過去の質問文章に対応付けられた過去の回答文章を前記質問回答データベースから抽出して、第1の回答候補文章とする。
【発明の効果】
【0010】
本発明によれば、新規質問文章に対して好適な回答候補文章を出力できる。
【図面の簡単な説明】
【0011】
図1】実施例における回答候補提案システムの機能ブロック図の一例を示す図である。
図2】実施例における回答候補提案システムのハードウェア構成例を示すブロック図である。
図3】質問回答データベースの一例を示す図である。
図4】疑問語要望語リストの一例を示す図である。
図5】個人情報語リストの一例を示す図である。
図6】補足単語リストの一例を示す図である。
図7】項目候補単語テーブルの一例を示す図である。
図8】実施例の項目候補単語群生成処理の例を示すフローチャートである。
図9】ユーザ端末に表示される新規質問文章入力画面の一例を示す説明図である。
図10】ユーザ端末に表示される項目単語群選択画面の一例を示す説明図である。
図11】オペレータ端末に表示される回答候補生成選択画面の一例を示す説明図である。
図12】回答候補提案システム1の回答候補文章生成処理の一例を示すフローチャートである。
図13】オペレータ端末に表示される回答候補表示画面の一例を示す説明図である。
【発明を実施するための形態】
【0012】
以下、図面を参照して本発明の実施の形態を説明する。実施例は、本発明を説明するための例示であって、説明の明確化のため、適宜、省略および簡略化がなされている。本発明は、他の種々の形態でも実施することが可能である。特に限定しない限り、各構成要素は単数でも複数でも構わない。
【0013】
図面において示す各構成要素の位置、大きさ、形状、範囲などは、発明の理解を容易にするため、実際の位置、大きさ、形状、範囲などを表していない場合がある。このため、本発明は、必ずしも、図面に開示された位置、大きさ、形状、範囲などに限定されない。
【0014】
各種情報の例として、「テーブル」、「リスト」、「キュー」等の表現にて説明することがあるが、各種情報はこれら以外のデータ構造で表現されてもよい。例えば、「XXテーブル」、「XXリスト」、「XXキュー」等の各種情報は、「XX情報」としてもよい。識別情報について説明する際に、「識別情報」、「識別子」、「名」、「ID」、「番号」等の表現を用いるが、これらについてはお互いに置換が可能である。
【0015】
同一あるいは同様の機能を有する構成要素が複数ある場合には、同一の符号に異なる添字を付して説明する場合がある。また、これらの複数の構成要素を区別する必要がない場合には、添字を省略して説明する場合がある。
【0016】
実施例において、プログラムを実行して行う処理について説明する場合がある。ここで、計算機は、プロセッサ(例えばCPU、GPU)によりプログラムを実行し、記憶資源(例えばメモリ)やインターフェースデバイス(例えば通信ポート)等を用いながら、プログラムで定められた処理を行う。そのため、プログラムを実行して行う処理の主体を、プロセッサとしてもよい。同様に、プログラムを実行して行う処理の主体が、プロセッサを有するコントローラ、装置、システム、計算機、ノードであってもよい。プログラムを実行して行う処理の主体は、演算部であれば良く、特定の処理を行う専用回路を含んでいてもよい。ここで、専用回路とは、例えばFPGA(Field Programmable Gate Array)やASIC(Application Specific Integrated Circuit)、CPLD(Complex Programmable Logic Device)等である。
【0017】
プログラムは、プログラムソースから計算機にインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバまたは計算機が読み取り可能な記憶メディアであってもよい。プログラムソースがプログラム配布サーバの場合、プログラム配布サーバはプロセッサと配布対象のプログラムを記憶する記憶資源を含み、プログラム配布サーバのプロセッサが配布対象のプログラムを他の計算機に配布してもよい。また、実施例において、2以上のプログラムが1つのプログラムとして実現されてもよいし、1つのプログラムが2以上のプログラムとして実現されてもよい。
【実施例0018】
実施例の回答候補提案システム1は、新規質問文章および項目単語群が入力されると、新規質問文章および項目単語群に基づいて、新規質問文章に対する回答文章の候補となる回答候補文章(以下で説明する、第1の回答候補文章、第2の回答候補文章)を生成する。
項目単語群とは、項目候補単語群から選択された、新規質問文章に関する単語である。
項目候補単語群とは、質問回答データベース21(後述)に保存された過去の質問文章および新規質問文章に基づいて生成された、新規質問文章に関する複数の単語(項目候補単語)である。なお、「~単語群」との記載は、少なくとも1つの「~単語」を意味する。
【0019】
<システム構成>
図1は、実施例における回答候補提案システム1の機能ブロック図の一例を示す図である。図1に示すように、回答候補提案システム1は、ユーザ端末2と、オペレータ端末3と、ウェブ検索エンジン4とに、ネットワークNWを介して接続されている。
【0020】
ユーザ端末2は、問題文章を入力するユーザに操作される。ユーザ端末2は、ユーザから入力を受け付ける入力装置と、ディスプレイやタッチパネルなどの情報を表示する出力装置を備える。ユーザ端末2は、ネットワークNWを介して、回答候補提案システム1やオペレータ端末3と情報の送受信ができる。また、ユーザ端末2は、回答候補提案システム1やオペレータ端末3から受信した情報を表示できる。そして、ユーザ端末2は、ユーザから入力された情報を回答候補提案システム1やオペレータ端末3に送信できる。
【0021】
オペレータ端末3は、オペレータに操作され、オペレータからの入力を受け付ける入力装置と、ディスプレイやタッチパネルなどの情報を表示する出力装置を備えている。オペレータ端末3は、ネットワークNWを介して、回答候補提案システム1やユーザ端末2と情報の送受信ができる。オペレータ端末3は、回答候補提案システム1を利用するヘルプデスクに設置されるほか、例えばヘルプデスクの委託業者等が保有してもよい。オペレータ端末3として、例えば、パーソナルコンピュータ等の電子機器が用いられる。
【0022】
ウェブ検索エンジン4は、ネットワークNWを介して、少なくとも1つの単語を受信すると、受信した単語に関するWEBサイトの情報を含む検索結果を返す。検索結果に含まれるWEBサイトの情報には、WEBサイトの概要文やURLが含まれる。ここで、概要文とは、ウェブ検索エンジン等にて生成された、各WEBサイトの概要文章(例えば、100字程度)であり、スニペットと称される場合もある。
【0023】
ネットワークNWは、有線のネットワークでもよいし、無線のネットワークでもよい。また、ネットワークNWは、インターネットのようなグローバルネットワークであってもよいし、構内ネットワーク(LAN:Local Area Network)であってもよい。
【0024】
回答候補提案システム1は、項目候補単語群生成部11と、回答候補文章生成部12とを備えている。また、回答候補提案システム1は、質問回答データベース21と、疑問詞要望語リスト22と、個人情報単語リスト23と、補足単語リスト24と、項目候補単語テーブル25と、を格納している。
【0025】
項目候補単語群生成部11は、詳細は図8のフローチャートを用いて後述するが、ユーザ端末2のユーザが入力した新規質問文章が回答候補提案システム1に入力された場合に、新規質問文章に関する項目候補単語群を生成する。さらに、項目候補単語群生成部11は、生成した項目候補単語群を後述するネットワークI/F36(送受信装置)に出力して、ネットワークI/F36に項目候補単語群をネットワークNW介してユーザ端末2に送信させる。
【0026】
回答候補文章生成部12は、詳細は図12のフローチャートを用いて後述するが、項目単語群および新規質問文章が回答候補提案システム1に入力された場合に、回答候補文章(第1の回答候補文章、第2の回答候補文章)を生成する。そして、回答候補文章生成部12は、生成した回答候補文章を、後述するネットワークI/F36(送受信装置)に出力して、ネットワークI/F36に、回答候補文章をネットワークNW介してオペレータ端末3に送信させる。
【0027】
質問回答データベース21は、詳細は図3を用いて後述するが、過去の質問文章と、過去の質問文章に対する過去の回答文章と、過去の質問文章のtfidfベクトルと、を対応付けて格納する。
【0028】
疑問詞要望語リスト22は、詳細は図4を用いて後述するが、疑問があることを表す疑問詞および要望があることを表す要望語を保存するデータベースである。
【0029】
個人情報単語リスト23は、詳細は図5を用いて後述するが、個人情報を表す複数の個人情報単語を保存するデータベースである。
【0030】
補足単語リスト24は、詳細は図6を用いて後述するが、補足単語を保存するデータベースである。
【0031】
項目候補単語テーブル25は、詳細は図7を用いて後述するが、過去の質問文章に含まれる単語(特に動詞)と、項目候補単語群とを対応付けて保存しているデータベースである。
【0032】
図2は、回答候補提案システム1のハードウェア構成例を示すブロック図である。図2に示すように、回答候補提案システム1は、プロセッサ31、主記憶装置32、副記憶装置33、入力装置34、出力装置35、ネットワークI/F36、これらを接続するバス37を有している。回答候補提案システム1は、例えばPCやサーバーコンピューターのような一般的な情報処理装置で実現できる。
【0033】
プロセッサ31は、副記憶装置33に記憶されたデータやプログラムを主記憶装置32に読み出して、プログラムによって定められた処理を実行する。
【0034】
主記憶装置32は、RAMなどで、揮発性記憶素子を有し、プロセッサ31が実行するプログラムや、データを記憶する。
【0035】
副記憶装置33は、HDD(Hard Disk Drive)やSSD(Solid State Drive)などで、不揮発性記憶素子を有し、プログラムやデータ等を記憶する装置である。副記憶装置33には、上述した、質問回答データベース21と、疑問詞要望語リスト22と、個人情報単語リスト23と、補足単語リスト24と、項目候補単語テーブル25と、を格納している。
【0036】
また、副記憶装置33には、項目候補単語群生成プログラム11aと、回答候補文章生成プログラム12aと、がインストールされている。図1を用いて上述した、項目候補単語群生成部11と、回答候補文章生成部12とは、副記憶装置33に記憶されている項目候補単語群生成プログラム11aと、回答候補文章生成プログラム12aとを、プロセッサ31が主記憶装置32に読み出して実行することにより実現される。
【0037】
入力装置34は、キーボードやマウスなどのユーザの操作を受け付ける装置であり、ユーザの操作により入力された情報を取得する。出力装置35は、ディスプレイなど情報を出力する装置であり、例えば画面への表示により情報をユーザに提示する。
【0038】
ネットワークI/F36は、ユーザ端末2や、オペレータ端末3や、ウェブ検索エンジン4等の装置と、ネットワークNWを介してデータを送受信するためのインターフェースである。すなわち、ネットワークI/F36は、ネットワークNWを介して、ユーザ端末2、オペレータ端末3、ウェブ検索エンジン4に情報の送受信が可能な送受信装置である。回答候補提案システム1は、ネットワークI/F36を用いて、ネットワークNWに接続されているユーザ端末2や、オペレータ端末3や、ウェブ検索エンジン4等の装置とデータの送受信を行うことができる。
【0039】
ユーザ端末2およびオペレータ端末3は、回答候補提案システム1と同様のハードウェア資源を使用することで構成できる。
【0040】
<各種データ構造>
図3は、質問回答データベース21の一例を示す図である。図3に示す質問回答データベース21では、質問回答ID301は、過去の質問文章302を識別するIDである。回答文章303、tfidfベクトル304(詳細は後述する)は、過去の質問文章302に対応付けられている。この様に、質問回答データベース21は、過去の質問文章302と、当該過去の質問文章302に対する過去の回答文章303を対応付けて保存する。tfidfベクトル304は、質問回答データベース21に、新たに過去の質問文章と過去の回答文章との組が保存される度に、質問回答データベース21に保存された全ての過去の質問文章に対して生成してもよい。また、例えば、過去の質問文章と過去の回答文章との組が所定の数、質問回答データベース21に保存される毎等、あらかじめ設定したタイミングでtfidfベクトル304を生成し直しても良い。
【0041】
図4は、疑問詞要望語リスト22の一例を示す図である。図4に示す疑問詞要望語リスト22では、疑問詞要望語ID401は、疑問詞要望語402を識別するIDである。疑問詞要望語402は、疑問があることを表す疑問詞または要望があることを表す要望語である。図4には、疑問詞要望語402の例として、「しょうか」と「下さい」を示した。他の疑問詞要望語402の例として、「すか」、「のか」、「んか」、「なの」、「だれ」、「なに」、「何」、「どこ」、「いつ」、「いくつ」、「いくら」、「どう」、「なぜ」、「いか」、「どの」、「だれ」、「誰」、「どなた」、「何」、「どれ」、「どんな」、「いかなる」、「ほしい」、「欲しい」、「ください」、「たい」、「求」、「頼」、「?」が挙げられる。
【0042】
図5は、個人情報単語リスト23の一例を示す図である。図5に示す個人情報単語リスト23では、個人情報単語ID501は、個人情報単語502を識別するIDである。個人情報単語502は、個人情報を表す複数の個人情報単語である。図5には、個人情報単語502の例として、郵便番号として「***-****」と、電話番号として「***-****-****」を示した。個人情報単語502の他の例として、郵便番号として「*******」、電話番号として「***********」、「カード番号」、「生年月日」、「メールアドレス」、「人名」、「住所」が挙げられる。なお、以上で「*」は、一文字の数字を表す。
【0043】
図6は、補足単語リスト24の一例を示す図である。図6に示す補足単語リスト24では、補足単語ID601は、補足単語602を識別するIDである。補足単語602とは、新規質問文章に含まれる質問の意図に関して重要な意味をもつ場合が多いと考えられる単語である。なおかつ、補足単語602は、tf-idf法の後述する「(A)文章に含まれる単語の重要度を算出し、文章に含まれる重要単語を抽出する重要単語抽出方法」で、重要度が低く算出され、重要単語として抽出されない場合が多いと考えられる単語(形態素)である。図6には、補足単語602の例として、「ない」を示した。
【0044】
図7は、項目候補単語テーブル25の一例を示す図である。図7に示す項目候補単語テーブル25では、項目候補単語ID701は、単語702を識別するIDである。項目候補単語群703は、単語702に対応付けられている。項目候補単語テーブル25は、例えば、次の様に、質問回答データベース21に保存された過去の質問文章に基づいて生成される。まず、質問回答データベース21に保存されている、過去の質問文章それぞれに対して、疑問詞要望語リスト22に保存されている疑問詞および要望語を少なくとも1つ含む疑問要望文を抽出する。次に、抽出した疑問要望文それぞれを形態素解析し、疑問要望文に含まれる動詞を項目候補単語テーブル25の単語702とし、疑問要望文に含まれる少なくとも1つの名詞を項目候補単語群703として、項目候補単語テーブル25に保存する。この様に、項目候補単語テーブル25の項目候補単語群703は、質問回答データベース21に保存された過去の質問文章に基づいて生成されている。
【0045】
<tf-idf法>
回答候補提案システム1は、新規質問文章に基づいて、項目候補単語群や、第1の回答候補文章や、第2の回答候補文章を生成する過程で、tf-idf法(単語頻度逆文書頻度法)の重要度と、コサイン類似度を算出する。重要度は、文章に含まれる単語の重要度である。一方、コサイン類似度は、文章と文章の類似度である。以下では、tf-idf法において、(A)文章に含まれる単語の重要度を算出し、文章に含まれる重要単語を抽出する重要単語抽出方法と、(B)文章と文章のコサイン類似度を算出し、対象とする文章に類似する類似文章を抽出する類似文書抽出方法と、の概要を以下に説明する。(A)における重要度の算出、(B)におけるコサイン類似度の算出では、複数の文章が格納されたデータベース(本実施例では質問回答データベース21)を使用する。
【0046】
(A)文章に含まれる単語の重要度を算出し、文章に含まれる重要単語を抽出する重要単語抽出方法では、重要度を対象とする文章中の全ての単語に対して算出する。
【0047】
単語の重要度(tfidf値とする)は、tfとidfの積である。まず、文章を形態素解析し、文章を形態素(単語)に分解する。そして、tfを算出する。文章中の全単語数をN、重要度算出対象の単語の文章中の出現回数をnとすると、tfは、例えばtf=n/Nで表される。tfは文章での単語の出現回数の多さを表す。またtfでは、文章中の出現回数nの多い単語程、重要とみなす。
【0048】
次に、idfを算出する。データベースに格納された文章の数をDとし、重要度算出対象の単語を含む文章の数をdとする。idfは、例えば、idf=-log(d/D)で表される。これを、idf=log(D/d)と表すこともできる。重要度算出対象の単語を含む文章の数dが小さい程、idf=log(D/d)は大きくなる。idfは、データベースに格納されている全文章中で、重要度算出対象の単語を含む文章の数dの少なさを表す。idfでは、対象の単語を含む文章の数dが小さい単語程、重要とみなす。
【0049】
単語の重要度は、tfidf値=tf・idf=n/N・(-log(d/D))である。そして、文章中の全ての単語に対してtfidf値(重要度)を算出する。そして、tfidf値の高い単語のうち、上位から所定の割合(または所定の数)の単語を、重要単語とする。
【0050】
(B)文章と文章のコサイン類似度を算出し、対象とする文章に類似する類似文章を抽出する類似文書抽出方法では、以下で説明するように、データベースに格納されている文章それぞれと、対象とする文章とに、tfidfベクトルを算出し、コサイン類似度を算出する。
【0051】
まず、データベースに格納されている全文章と、対象とする文章と、を形態素解析し、文章を単語(形態素)に分解する。次に、分解して得られた複数の単語から、単語の重複する分を削除し、単語それぞれを成分とする単語ベクトルを生成する。次に、データベースに格納されている文章それぞれと、対象とする文章に対して、tfidfベクトルを算出する。tfidfベクトルは、単語ベクトルの成分の単語に対するtfidf値を成分とするベクトルである。
【0052】
単語ベクトルと、tfidfベクトルとの例を挙げると、「スマートフォンは軽い。」という文を、形態素解析して生成される単語ベクトルは、例えば、(スマートフォン,は,軽い,。)となる。これに対するtfidfベクトルは、例えば、(「スマートフォン」のtfidf値,「は」のtfidf値,「軽い」のtfidf値,「。」のtfidf値)となる。
【0053】
次に、データベースに格納されている文章のtfidfベクトルそれぞれと、対象とする文章のtfidfベクトルとのコサイン類似度(2つのtfidfベクトルの間の角度に対するコサインの値)を算出する。2つのtfidfベクトルA、Bのコサイン類似度は、コサイン類似度=A・B/(|A||B|)となる。対象文章とのコサイン類似度の値が大きい文章ほど(コサイン類似度が高い文章ほど)、類似度が高い文章とする。
【0054】
そして、データベースに含まれる文章のうちで、コサイン類似度の高さで上位から所定の割合(または所定の数)の文章を、類似度が高い類似文章とする。ここで、コサイン類似度の代わりに、データベースに格納されている文章のtfidfベクトルと、対象とする文章のtfidfベクトルと、の内積を用いても良い。
【0055】
以上の説明は、tf-idf法の概要であり、tf-idf法を用いる際のtf-idf法のアルゴリズムは、以上で説明した方法から適宜変更できる。また、tf-idf法の「(B)文章と文章のコサイン類似度を算出し、対象とする文章に類似する類似文章を抽出する類似文書抽出方法」に換えて、例えばDoc2Vec法等の文章の類似度を算出する他の方法を用いて類似文章を抽出しても良い。
【0056】
<処理手順>
次に、回答候補提案システム1の処理手順について説明する。ユーザは、ユーザ端末2を操作して、ユーザ端末2に、回答候補提案システム1にアクセスさせる。回答候補提案システム1は、ユーザ端末2からアクセスされると、項目候補単語群生成部11により実行される、項目候補単語群生成処理を開始する。以下では、図9及び図10を参照しつつ、図8を用いて項目候補単語群生成処理について説明する。
【0057】
図8は、回答候補提案システム1の項目候補単語群生成処理の一例を示すフローチャートである。
【0058】
回答候補提案システム1は、ユーザ端末2に新規質問文章入力画面情報を送信する(ステップS101)。新規質問文章入力画面情報は、新規質問文章入力画面の構成の情報と、ユーザ端末2に新規質問文章入力画面を表示させる旨の情報と、を含む。新規質問文章入力画面は、新規質問文章の入力と、入力された新規質問文章を回答候補提案システム1に送信する旨の入力と、を受け付けることができるように構成されている。
【0059】
図9は、ユーザ端末2に表示される新規質問文章入力画面の一例を示す説明図である。図9に示す新規質問文章入力画面900は、新規質問文章入力欄901と、項目選択ボタン902とを備えている。新規質問文章入力欄901は、ユーザが新規質問文章を入力する欄である。項目選択ボタン902は、入力された新規質問文章を回答候補提案システム1に送信する旨を入力するボタンである。ユーザが、新規質問文章入力欄901に新規質問文章を入力し、さらに、項目選択ボタン902を押すと、ユーザ端末2は、新規質問文章入力欄901に入力された新規質問文章を、回答候補提案システム1に送信するようになっている。図9には、新規質問文章入力欄901に、「繋がらないから助けてほしい。私日立花子はA県B市C丁目に住んでいるが、自宅の椅子に座って本を読んでいた時に発覚した。」との新規質問文章が入力されており、項目選択ボタン902が押されると、入力された新規質問文章が、回答候補提案システム1に送信される。
【0060】
図8に戻り、次に、回答候補提案システム1は、所定時間待機する(ステップS102)。
【0061】
次に、回答候補提案システム1は、ユーザ端末2から新規質問文章を受信したか否かを判定する(ステップS103)。ユーザ端末2から新規質問文章を受信したと判定された場合(ステップS103:YES)はステップS104に進み、ユーザ端末2から新規質問文章を受信していないと判定された場合(ステップS103:NO)は、ステップS102に戻る。これにより、回答候補提案システム1は、ユーザ端末2から新規質問文章を受信するまで、ステップS102、ステップS103の処理を繰り返して、新規質問文章を待ち受ける。
【0062】
次に、回答候補提案システム1は、ユーザ端末2から受信した新規質問文章を保存する(ステップS104)。ここで、回答候補提案システム1のネットワークI/F36(送受信装置)は、ユーザ端末2から新規質問文章を受信する(入力される)と、プロセッサ31は、新規質問文章を受信した旨をネットワークI/F36から受け取り、受信した新規質問文章を主記憶装置32に記憶させる。以上の様に回答候補提案システム1に新規質問文章が入力される。
【0063】
次に、回答候補提案システム1は、質問回答データベース21を用いtf-idf法のコサイン類似度を算出して、新規質問文章に類似する過去の質問文章を抽出し、抽出した新規質問文章に類似する過去の質問文章を保存する(ステップS105)。ここで、回答候補提案システム1は、質問回答データベース21を用い、質問回答データベース21に保存された過去の質問文章それぞれに対して、質問情報との、上述したtf-idf法のコサイン類似度を算出する。そして、質問回答データベース21に保存されている過去の質問文章のうちで、コサイン類似度の高さで上位から所定の割合(例えば20%)または所定の数(例えば3)の文章を抽出し、新規質問文章に類似する過去の質問文章として保存する。
【0064】
次に、回答候補提案システム1は、質問回答データベース21を用いて、上述したtf-idf法の重要度を算出して、ステップS105にて抽出した新規質問文章に類似する過去の質問文章から高重要度単語群を生成し、保存する(ステップS106)。ここで、回答候補提案システム1は、ステップS105にて抽出した新規質問文章に類似する過去の質問文章を形態素解析して、複数の過去質問文章形態素を生成する。過去質問文章形態素とは、新規質問文章に類似する過去の質問文章を形態素解析して得られる形態素(単語)である。そして回答候補提案システム1は、複数の過去質問文章形態素それぞれに対して、上述したtf-idf法の重要度を、質問回答データベース21を用いて算出する。そして、複数の過去質問文章形態素のうちで、tf-idf法の重要度の高さで上位から所定の割合(例えば20%)または所定の数(例えば10)の過去質問文章形態素のうちの名詞を高重要度単語群として保存する。
【0065】
次に、回答候補提案システム1は、高重要度単語群から、新規質問文章に含まれる単語を除いた単語群を項目候補単語群とし、保存する(ステップS107)。ここで、回答候補提案システム1は、新規質問文章を形態素解析して新規質問文章形態素(単語)を生成して保存する。新規質問文章形態素とは、新規質問文章を形態素解析して得られる形態素である。また、新規質問文章形態素を、「新規質問文章に含まれる単語」とする。そして、高重要度単語群から「新規質問文章に含まれる単語」(新規質問文章形態素)を除いて、項目候補単語群とする。なお、ステップS107を省略し、項重要度単語群を項目候補単語群としてもよい。
【0066】
次に、回答候補提案システム1は、項目候補単語群と、項目単語群選択画面情報とをネットワークI/F36(送受信装置)に出力し、ネットワークI/F36に、項目候補単語群と、項目単語群選択画面情報とをネットワークNWを介してユーザ端末2に送信させて、処理を終了する(ステップS108)。項目単語群選択画面情報は、項目単語群選択画面の構成の情報と、ユーザ端末2に項目単語群選択画面を表示させる旨の情報と、を含む。項目単語群選択画面は、図10を用いて後述するが、項目候補単語群を表示でき、項目候補単語群から選択される項目単語群の入力と、入力された項目単語群および新規質問文章をオペレータ端末3に送信する旨の入力と、を受け付けることができるように構成されている。
【0067】
図10は、ユーザ端末2に表示される項目単語群選択画面の一例を示す説明図である。図10に示す項目単語群選択画面1000は、項目単語選択ボタン1001~1004と、項目単語投稿ボタン1005を備えている。項目単語選択ボタン1001~1004は、項目候補単語が描かれたボタンである。項目単語選択ボタン1001~1004は、ユーザに押されると、枠を示す線の種類が切り替わる。項目単語選択ボタン1001~1004において、実線で描かれた枠は項目単語選択ボタンに書かれた項目候補単語をユーザが項目単語に選択したことを示し、破線で描かれた枠は項目単語選択ボタンに書かれた項目候補単語をユーザが項目単語に選択していないことを示す。
【0068】
図10の例では、項目単語選択ボタン1001、1002の枠は実線になっており、項目単語選択ボタン1001の「スマートフォン」と、項目単語選択ボタン1002の「電波」は項目単語に選択されている。また、項目単語選択ボタン1003、1004の枠は破線になっており、項目単語選択ボタン1003の「コード」と、項目単語選択ボタン1004の「電子書籍」は項目単語に選択されていない。
【0069】
項目単語投稿ボタン1005は、入力された項目単語群を回答候補提案システム1に送信する旨を入力するボタンである。ユーザが、項目単語選択ボタン1001~1004を押して項目単語を選択し、さらに、項目単語投稿ボタン1005を押すと、ユーザ端末2は、項目単語選択ボタン1001~1004で選択された項目単語(項目単語群)と、新規質問文章と、回答候補生成選択画面情報とを、オペレータ端末3に送信するようになっている。
【0070】
回答候補生成選択画面情報は、回答候補生成選択画面の構成の情報と、オペレータ端末3に回答候補生成選択画面を表示させる旨の情報と、を含む。回答候補生成選択画面は、図11を用いて後述するが、新規質問文章および項目単語群を表示でき、回答候補提案システム1に回答候補文章を生成させるか否かの情報の入力と、ウェブ検索で第2の回答候補文章を収集するか否かの情報であるWEB検索設定情報の入力と、を受け付けることができるように構成されている。
【0071】
なお、ユーザ端末2は、項目単語群と、新規質問文章と、回答候補生成選択画面情報とを、オペレータ端末3に送信する代わりに、回答候補提案システム1に項目単語群および新規質問文章を送信してもよい。ここで、回答候補提案システム1は、ユーザ端末2から項目単語群および新規質問文章を受信すると、WEBから第2の回答候補文章を取得(詳細は後述)するか否かを適宜設定して、図12に一例をフローチャートで示す回答候補文章生成処理を実行しても良い。
【0072】
以上で説明した、図8のステップS105~S107では、質問回答データベース21に保存された過去の質問文章それぞれに対して、新規質問文章との類似度(コサイン類似度)を算出し、新規質問文章との類似度に基づいて、新規質問文章に類似する過去の質問文章を抽出する(ステップS105)。抽出した新規質問文章に類似する過去の質問文章から生成した複数の過去質問文章形態素それぞれの重要度を算出し、複数の過去質問文章形態素から重要度の高い過去質問文章形態素を抽出して、項目候補単語群とする(ステップS106~S107)。これにより、項目候補単語群は、新規質問文章に類似する過去の質問文章において、重要度が高い、比較的重要な意味を持つ単語(過去質問文章形態素)となる。
【0073】
また、回答候補文章(第1の回答候補文章、第2の回答候補文章)は、項目候補単語群から選択された項目候補単語と新規質問文章とに基づいて生成される。このため、項目候補単語群は、新規質問文章の質問に関して重要な意味を持つことが望ましい。これに対して、上述した様に、項目候補単語群は、新規質問文章に類似する過去の質問文章において、比較的重要な意味を持つ単語である。従って、回答候補提案システム1は、上記の様に項目候補単語群を生成することで、より適切な項目候補単語群を生成できる。
【0074】
また、図8のステップS105~S107に換えて、次のように、項目候補単語テーブル25を用いて、新規質問文章から項目候補単語群を生成してもよい。まず、回答候補提案システム1は、新規質問文章に含まれる文から、疑問詞要望語リスト22に保存されている疑問詞および要望語を少なくとも一つ含む疑問要望文を抽出する。次に、回答候補提案システム1は、抽出した疑問要望文を形態素解析して、疑問要望文に含まれる複数の単語(形態素)を得る。次に、回答候補提案システム1は、疑問要望文に含まれる複数の単語から、動詞を抽出する。次に、回答候補提案システム1は、項目候補単語テーブル25(図7参照)を参照して、抽出した動詞に対応する項目候補単語群を項目候補単語テーブル25から抽出し、項目候補単語群を得る。
【0075】
項目候補単語テーブル25に保存されている項目候補単語群は、図7を用いて上述した様に、質問回答データベース21に保存された過去の質問文章に基づいて生成されている。従って、以上で説明した、項目候補単語テーブル25を用いて項目候補単語群を生成する方法でも、項目候補単語群は、質問回答データベース21に保存された過去の質問文章と新規質問文章に基づいて生成される。これにより、回答候補提案システム1は、より適切な項目候補単語群を生成できる。
【0076】
図11は、オペレータ端末3に表示される回答候補生成選択画面の一例を示す説明図である。図11に示す回答候補生成選択画面1100は、新規質問文章表示枠1101と、項目単語群表示枠1102と、ウェブ検索選択ボタン1103と、送信ボタン1104と、回答ボタン1105と、を含む。新規質問文章表示枠1101は、新規質問文章を表示する枠である。項目単語群表示枠1102は、項目単語群を表示する枠である。オペレータ端末3を操作するオペレータが、新規質問文章表示枠1101内を押す(クリック等する)と、オペレータ端末3は、オペレータからの入力を受け付けて、オペレータが新規質問文章表示枠1101内の新規質問文章を編集できるようになっている。これにより、オペレータ端末3は、オペレータが誤記の修正等の編集を加えた新規質問文章を回答候補提案システム1に送信することができる。その結果、回答候補提案システム1は、編集を加えた新規質問文章を新規質問文章とみなして回答候補文章を生成する。これにより、回答候補提案システム1は、より好適な第1の回答候補文章を生成し得る。
【0077】
ウェブ検索選択ボタン1103は、回答候補提案システム1がウェブ検索で第2の回答候補文章を収集するか否かの情報であるWEB検索設定情報を入力するためのボタンである。ウェブ検索選択ボタン1103は、回答候補提案システム1にウェブ検索で第2の回答候補文章を収集させる場合には、図11に示すように黒塗りになり、回答候補提案システム1にウェブ検索で第2の回答候補文章を収集させない場合には白塗りになる。ここで、黒塗りか、白塗りかは、オペレータがウェブ検索選択ボタン1103押す毎に、切り替わるようになっている。
【0078】
送信ボタン1104は、オペレータが押すと、オペレータ端末3が、回答候補提案システム1に、新規質問文章表示枠1101内の新規質問文章と、項目単語群と、WEB検索設定情報と、回答候補提案システム1に回答候補文章の生成を指示する情報である回答候補文章生成開始情報と、を含む生成開始情報を送信するようになっている。ここで、生成開始情報に含まれる新規質問文章は、オペレータが送信ボタン1104を押した時点での新規質問文章表示枠1101内の新規質問文章である。従って、オペレータが送信ボタン1104を押す前に、新規質問文章表示枠1101内の新規質問文章を編集した場合には、編集後の新規質問文章が新規質問文章として開始情報に含まれる。なお、上述したように、オペレータが新規質問文章表示枠1101内の新規質問文章を編集する際に、オペレータが新規質問文章の一部(例えば、オペレータが質問で重要な意味を持つと思う部分)にアンダーラインや太字等の修飾を加えることができるとし、さらに、オペレータが修飾を加えた部分の文字の情報を重要文字情報として、生成開示情報に含めても良い。そして、後述するように、回答候補提案システム1は、重要文字情報を用いて、回答候補文章(第1の回答候補文章、第2の回答候補文章)を生成してもよい。
【0079】
回答ボタン1105は、押されると、オペレータ端末3に表示されている画面が、回答候補生成選択画面から、オペレータが新規質問文章に対する回答文章を入力する画面に切り替わるように構成されている。
【0080】
回答候補提案システム1は、ネットワークI/F36でオペレータ端末3から生成開始情報を受信する(これにより、生成開始情報に含まれる、新規質問文章が入力され、さらに、項目候補単語群からユーザが選択した項目単語群が入力される)と、回答候補文章生成部12により実行される回答候補文章生成処理を開始する。
【0081】
図12は、回答候補提案システム1の回答候補文章生成処理の一例を示すフローチャートである。
【0082】
回答候補提案システム1は、オペレータ端末3から受信した生成開始情報に含まれる、WEB検索設定情報と、新規質問文章と、項目単語群と、を保存する(ステップS201)。
【0083】
次に、回答候補提案システム1は、疑問詞要望語リスト22を用い、新規質問文章から疑問要望文を抽出し、抽出した疑問要望文に項目単語群を加えて質問情報を生成する(ステップS202)。ここで、回答候補提案システム1は、疑問詞要望語リスト22に保存された疑問詞または要望語を少なくとも一つ含む疑問要望文を、新規質問文章から抽出する。そして、回答候補提案システム1は、抽出した疑問要望文の後ろまたは前に項目単語群を加えて質問情報とする。例えば、疑問要望文が「繋がらないから助けてほしい。」で、項目単語群が「スマートフォン」及び「電波」の場合、質問情報は、例えば、「繋がらないから助けてほしい。スマートフォン、電波」または「スマートフォン、電波、繋がらないから助けてほしい。」となる。なお、上述した様に生成開始情報が重要文字情報を含む場合には、疑問要望文と、項目単語群と、重要文字情報に含まれる文字(疑問要望文と重複する部分は削除するようにしてもよい)とを加えて、質問情報としてもよい。その結果、オペレータが、新規質問文章にアンダーライン等の修飾を加えた部分の文字を、質問情報に加えることができる。これにより、回答候補提案システム1は、より好適な第1の回答候補文章を生成し得る。
【0084】
次に、回答候補提案システム1は、質問回答データベース21を用い、tf-idf法のコサイン類似度を算出して、質問情報に類似する過去の質問文章を抽出し、抽出した過去の質問文章に対応付けられた過去の回答文章を第1の回答候補文章として、保存する(ステップS203)。ここで、回答候補提案システム1は、質問回答データベース21を用い、質問回答データベース21に保存された過去の質問文章それぞれに対して、質問情報との上述したtf-idf法のコサイン類似度を算出する。また、質問回答データベース21に保存されている過去の質問文章のうちで、コサイン類似度の高さで上位から所定の割合(例えば20%)または所定の数(例えば3)の過去の質問文章を抽出する。そして、抽出した過去の質問文章に対応付けられた過去の回答文章を、質問回答データベース21から抽出し、抽出した過去の回答文章を、第1の回答候補文章として保存する。
【0085】
次に、回答候補提案システム1は、ステップS201にて保存したWEB検索設定情報に基づいて、ウェブ検索で第2の回答候補文章を収集するか否かを判定する(ステップS204)。ウェブ検索で第2の回答候補文章を収集すると判定された場合(ステップS204:YES)はステップS205に進み、ウェブ検索で第2の回答候補文章を収集しないと判定された場合(ステップS204:NO)は、ステップS208に進む。ここで、上述した様に、WEB検索情報は、ウェブ検索で第2の回答候補文章を収集するか否かの情報であり、回答候補提案システム1は、WEB検索情報に基づいて、ウェブ検索で第2の回答候補文章を収集するか否かを判定できる。
【0086】
次に、回答候補提案システム1は、質問情報を形態素解析して複数の質問情報形態素を得て、質問回答データベース21を用いて質問情報形態素毎のtf-idf法の重要度を算出し、複数の質問情報形態素からtf-idf法の重要度が高い複数の質問情報形態素を抽出し、さらに、個人情報単語リスト23に保存されている個人情報単語を除いて得られる質問情報形態素群を検索単語群とし、保存する(ステップS205)。ここで、質問情報形態素とは、質問情報を形態素解析して得られる形態素である。また、tf-idf法の重要度の算出方法は、上述した。tf-idf法の重要度が高い複数の質問情報形態素とは、質問情報形態素のうちで、重要度の高さで上位から所定の割合(例えば20%)または所定の数(例えば3)の質問情報形態素である。
【0087】
また、ステップS205において、回答候補提案システム1は、補足単語リスト24に保存されている補足単語(例えば、「ない」)が、質問情報内にある場合、質問情報内にある補足単語を、検索単語群に加えてもよい。これにより、より望ましい第2の回答候補を得ることができる場合がある。
【0088】
また、検索単語群に含まれる単語(形態素)のうち、活用する単語は、活用形を残した形式(例えば:「繋がら」、「助け」)とするのが好ましいが、活用形の情報を除いた基本形(例えば:「繋がる」、「助ける」)としてもよい。
【0089】
次に、回答候補提案システム1は、ウェブ検索エンジンに検索単語群を送信し、ウェブ検索エンジンから返される検索単語群に関する検索結果を取得し、検索結果に含まれるWEBサイトの概要文を収集する(ステップS206)。ここで、回答候補提案システム1(プロセッサ31)は、ネットワークI/F36(送受信装置)が検索単語群をウェブ検索エンジンに送信するように、ネットワークI/F36(送受信装置)が検索単語群をウェブ検索エンジン4に送信する旨とともに検索単語群を、ネットワークI/F36(送受信装置)に出力する。これにより、ネットワークI/F36は、検索単語群を、ネットワークNWを介してウェブ検索エンジン4に送信する。検索単語群を受信したウェブ検索エンジン4は、回答候補提案システム1に、検索単語群に関する検索結果を返信する。検索単語群に関する検索結果は、検索単語群に関するWEBサイトの概要文を含む。
【0090】
なお、回答候補提案システム1は、過去の質問文章とその回答文章との組が記載された少なくとも1つのWEBページをあらかじめ記憶し、記憶したWEBページを、ステップS206の処理にてウェブ検索エンジンで検索する対象のWEBサイトに設定してもよい。これにより、WEBサイトの概要文をより容易に収集でき、ひいては、第2の回答候補文章(後述)をより容易に収集できる。
【0091】
また、ステップS206の処理にてウェブ検索エンジンを用いる代わりに、あらかじめ登録してあり記憶されている、所定の装置内のデータ(例えば、過去の質問文章とその回答文章との組のデータ等)を検索する検索装置を用いてもよい。ここで、検索装置は、例えば、WEBサイトの概要文と同様の概要文を生成し、記憶し、この概要文を、上記のWEBサイトの概要文の代わりとしてもよい。これにより、概要文をより効率よく収集し得り、ひいては、第2の回答候補文章(後述)をより効率よく収集し得る。
【0092】
次に、回答候補提案システム1は、ステップS206で得たWEBサイトの概要文を所定の順位付け方法で順位を付け、順位が上位から所定の数(または所定の割合)のWEBサイトの概要文を第2の回答候補文として保存する(ステップS207)。ここで、順位付け方法は、例えば、WEBサイトの概要文それぞれに対する新規質問文章とのtf-idf法のコサイン類似度の高さでもよい。また、順位付け方法は、特許文献2に記載されたランキングモデルを用いた順位付けでも良く、他の公知技術であってよい。また、ステップS207にて、順位付けするかわりに、ステップS206で、ウェブ検索エンジンが順位付けた、上位の検索結果の検索概要文を第2の回答候補文章としてもよい。さらに、第2の回答候補文章には、WEBサイトのURLを含めてよい。これにより、オペレータ端末3のオペレータは、第2の回答候補文章を読む際に、第2の回答候補文章に含まれるWEBサイトの概要文に関する情報を、URLを用いてWEBサイトにアクセスして手に入れることができる。
【0093】
次に、回答候補提案システム1は、回答候補文章および回答候補文章表示画面情報を、出力装置(ネットワークI/F36)に出力して、出力装置(ネットワークI/F36)に回答候補文章および回答候補文章表示画面情報をオペレータ端末3に送信させて、処理を終了する(ステップS208)。ここで、回答候補文章には、第1の回答候補文章と、第2の回答候補文章とを含む。言うまでもなく、ステップS204の処理で、ウェブ検索で第2の回答候補文章を収集しないと判定された場合(ステップS204:NO)には、回答候補文章は、第1の回答候補文章のみとなる。また、回答候補文章表示画面情報は、回答候補文章表示画面の構成の情報と、オペレータ端末3に回答候補文章表示画面を表示させる旨の情報と、を含む。回答候補文章表示画面は、回答候補文章を表示できるように構成されている。
【0094】
図13は、オペレータ端末3に表示される回答候補文章表示画面の一例を示す説明図である。図13に示す回答候補文章表示画面1300は、第1の枠1301と、第1の回答候補文章欄1302、1303と、第2の枠1304と、第2の回答候補文章欄1305、1306と、を備えている。第1の回答候補文章を示す「過去回答」と描かれた第1の枠1301の右に、第1の回答候補文章を表示する第1の回答候補文章欄1302、1303が示されている。同様に、第2の回答候補文章を示す「ウェブ検索」と描かれた第2の枠1304の右に、第2の回答候補文章を表示する第2の回答候補文章欄1305、1306が示されている。
【0095】
オペレータ端末3に、回答候補文章表示画面で、回答候補文章が表示されることで、オペレータは、表示された回答候補文章を参考にして、新規質問文章に対する回答文章を生成できる。これにより、オペレータは、より容易に回答文章を生成できる。また、オペレータが回答文章を生成するために必要となるエネルギーや生成される二酸化炭素の排出量を減らすことができ、地球温暖化を抑制できる。
【0096】
このように、実施例において、回答候補提案システム1は、新規質問文章だけでなく、質問回答データベース21に保存された過去の質問文章および新規質問文章に基づいて生成された項目候補単語群からユーザが選択した項目単語群に基づいて、回答候補文章(第1の回答候補文章及び第2の回答候補文章)を生成する。これにより、回答候補提案システム1は、新規質問文章だけに基づいて回答候補文章を生成する場合に比べて、新規質問文章の質問の意図により一層沿う、好適な回答候補文章を生成でき、出力できる。
【0097】
また、質問回答データベース21に保存された過去の質問文章と、過去の回答文章とを用いて、回答候補文章(第1の回答候補文章及び第2の回答候補文章)を生成する。これにより、回答候補提案システム1は、より容易に回答候補文章を生成できる。
【0098】
また、回答候補提案システム1は、疑問詞および要望語を少なくとも一つ含む疑問要望文を、新規質問文章から抽出し、抽出した疑問要望文に項目単語群を加えて質問情報を生成する(図12のステップS202)。これにより、回答候補提案システム1は、新規質問文章から質問の意図と関係の低い部分を除いた、質問の意図と関係の高い疑問要望文に基づいて、第1の回答候補文を生成できる。従って、回答候補提案システム1は、ユーザの質問の意図により一層沿う、好適な第1の回答候補文章を生成できる。
【0099】
また、図12のステップS203において、回答候補提案システム1が算出する、質問回答データベース21に保存された過去の質問文章それぞれに対する、質問情報との類似度は、質問回答データベース21を用いて算出されるtf-idf法のコサイン類似度である。これにより、回答候補提案システム1は、類似度を容易に算出でき、ひいては、より容易に第1の回答候補文章を生成できる。
【0100】
また、回答候補提案システム1は、ネットワークI/F36(送受信装置)に、回答候補文章(第1の回答候補文章及び第2の回答候補文章)を出力して、ネットワークI/F36(送受信装置)に、回答候補文章を、ネットワークNWを介してオペレータ端末3に送信させる。これにより、オペレータ端末3を操作するオペレータは、容易に回答候補文章(第1の回答候補文章及び第2の回答候補文章)を読むことができる。
【0101】
また、回答候補提案システム1は、ウェブ検索エンジン4に検索単語群を送信し、ウェブ検索エンジン4から返された検索単語群に関する検索結果に基づいて、第2の回答候補文章を生成する。これにより、回答候補提案システム1は、より容易に第2の回答候補文章を生成できる。
【0102】
また、回答候補提案システム1は、新規質問文章から疑問要望文を抽出し、疑問要望文に項目単語群を加えた質問情報を生成し(図12のステップS202)、tf-idf法の重要度に基づいて質問情報の複数の質問情報形態素(質問情報の形態素)から検索単語群を生成する(図12のステップS205)。これにより、回答候補提案システム1は、新規質問文章から質問の意図と関係の低い部分を除いた、質問の意図と関係の高い疑問要望文に基づいて、検索単語群を生成でき、ひいては、より適切な第2の回答候補文章を生成できる。また、検索単語群は、tf-idf法の重要度に基づいて生成されることにより、質問の意図により一層沿う検索単語群が生成できる。従って、回答候補提案システム1は、ユーザの質問の意図により一層沿う、好適な第2の回答候補文章を生成できる。
【0103】
また、回答候補提案システム1は、tf-idf法の重要度が高い複数の質問情報形態素(質問情報の形態素)から、個人情報単語リストに保存されている個人情報単語を除いて、検索単語群を生成する(図12のステップS205)。検索単語群は、ウェブ検索エンジン4に送信され、ウェブ検索エンジン4は、検索単語群で検索した検索結果を回答候補提案システム1に送信する。検索単語群には、ユーザのプライバシーに関わる個人情報単語が除かれているため、回答候補提案システム1は、ユーザのプライバシーを守った上で検索結果を取得でき、ひいてはユーザのプライバシーを守った上で第2の回答候補文章を生成できる。
【0104】
また、回答候補提案システム1は、検索単語群に関する検索結果に含まれるWEBサイトの概要文に基づいて第2の回答候補文章を生成する(図12のステップS206およびS207)。これにより、第2の回答候補文章の長さは、第2の回答候補文章の内容を把握することが容易になる程度に調整される。従って、オペレータが、第2の回答候補文章の内容を把握することが容易になる。
【0105】
また、回答候補提案システム1は、WEBサイトの概要文を所定の順位付け方法で順位を付け、順位が上位のWEBサイトの概要文を第2の回答候補文章とする(図12のステップS207)。これにより、回答候補提案システム1は、より適切な第2の回答候補文章を生成できる。
【0106】
また、回答候補提案システム1は、質問回答データベース21に保存された過去の質問文章それぞれに対して、新規質問文章との類似度(コサイン類似度)を算出して、新規質問文章に類似する過去の質問文章を抽出する(図8のステップS105)。抽出した新規質問文章に類似する過去の質問文章から生成した複数の過去質問文章形態素それぞれの重要度を算出し、重要度の高い過去質問文章形態素を抽出して、項目候補単語群とする(図8のステップS106~S107)。これにより、項目候補単語群は、新規質問文章に類似する過去の質問文章において、重要度が高い、比較的重要な意味を持つ単語(過去質問文章形態素)となる。また、項目候補単語群は、回答候補文章(第1の回答候補文章、第2の回答候補文章)を生成するために用いるため、項目候補単語群は、新規質問文章の質問に重要な意味を持つ単語であることが望ましい。従って、回答候補提案システム1は、より適切な項目候補単語群を生成できる。
【0107】
また、図8にフローチャートで一例を示す項目候補単語群生成処理において、質問回答データベース21に保存された過去の質問文章それぞれに対する新規質問文章との類似度は、質問回答データベース21を用いて算出されるtf-idf法のコサイン類似度である(図8のステップS105)。また、複数の過去質問文章形態素それぞれの重要度は、質問回答データベース21を用いて算出されるtf-idf法の重要度である(図8のステップS106)。この様に、tf-idf法のコサイン類似度および重要度を用いることにより、回答候補提案システム1は、より容易に項目候補単語群を生成できる。
【0108】
なお、本発明は上述した実施例に限定されるものではなく、添付した特許請求の範囲の趣旨内における様々な変形例及び同等の構成が含まれる。たとえば、前述した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに本発明は限定されない。また、実施例の構成の一部について、他の構成の追加、削除、または置換をしてもよい。
【符号の説明】
【0109】
1:回答候補提案システム
2:ユーザ端末
3:オペレータ端末
4:ウェブ検索エンジン
11:項目候補単語群生成部
11a:項目候補単語群生成プログラム
12:回答候補文章生成部
12a:回答候補文章生成プログラム
21:質問回答データベース
22:疑問詞要望語リスト
23:個人情報単語リスト
24:補足単語リスト
25:項目候補単語テーブル
31:プロセッサ
32:主記憶装置
33:副記憶装置
34:入力装置
35:出力装置
36:ネットワークI/F
37:バス
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13