IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社東芝の特許一覧 ▶ 東芝ソリューション株式会社の特許一覧

<>
  • 特開-文章検索装置、方法及びプログラム 図1
  • 特開-文章検索装置、方法及びプログラム 図2
  • 特開-文章検索装置、方法及びプログラム 図3
  • 特開-文章検索装置、方法及びプログラム 図4
  • 特開-文章検索装置、方法及びプログラム 図5
  • 特開-文章検索装置、方法及びプログラム 図6
  • 特開-文章検索装置、方法及びプログラム 図7
  • 特開-文章検索装置、方法及びプログラム 図8
  • 特開-文章検索装置、方法及びプログラム 図9
  • 特開-文章検索装置、方法及びプログラム 図10
  • 特開-文章検索装置、方法及びプログラム 図11
  • 特開-文章検索装置、方法及びプログラム 図12
  • 特開-文章検索装置、方法及びプログラム 図13
  • 特開-文章検索装置、方法及びプログラム 図14
  • 特開-文章検索装置、方法及びプログラム 図15
  • 特開-文章検索装置、方法及びプログラム 図16
  • 特開-文章検索装置、方法及びプログラム 図17
  • 特開-文章検索装置、方法及びプログラム 図18
  • 特開-文章検索装置、方法及びプログラム 図19
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023170598
(43)【公開日】2023-12-01
(54)【発明の名称】文章検索装置、方法及びプログラム
(51)【国際特許分類】
   G06F 16/90 20190101AFI20231124BHJP
【FI】
G06F16/90 100
【審査請求】未請求
【請求項の数】13
【出願形態】OL
(21)【出願番号】P 2022082465
(22)【出願日】2022-05-19
(71)【出願人】
【識別番号】000003078
【氏名又は名称】株式会社東芝
(71)【出願人】
【識別番号】301063496
【氏名又は名称】東芝デジタルソリューションズ株式会社
(74)【代理人】
【識別番号】110003708
【氏名又は名称】弁理士法人鈴榮特許綜合事務所
(72)【発明者】
【氏名】永江 尚義
(72)【発明者】
【氏名】岩田 憲治
(72)【発明者】
【氏名】吉田 尚水
(72)【発明者】
【氏名】小林 優佳
(72)【発明者】
【氏名】久島 務嗣
(72)【発明者】
【氏名】岩田 麗
(72)【発明者】
【氏名】古澤 幸子
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175EA01
(57)【要約】
【課題】対話型の文章検索において検索結果の絞り込みに有用な推奨単語を選定可能な文章検索装置、方法及びプログラムを提供すること。
【解決手段】文章検索装置は、受付部、検索部、解析部及び決定部を有する。受付部は、ユーザにより入力された文字列を受け付ける。検索部は、検索対象の複数の文章を蓄積した文章集を前記受け付けた文字列に基づいて検索して、前記受け付けた文字列に適合する1個又は複数個の検索結果文章を取得する。解析部は、前記検索結果文章に文章解析を施して、前記検索結果文章を構成する単語間の係り受け関係を取得する。決定部は、前記受け付けた文字列と前記検索結果文章と前記係り受け関係とに基づいて、前記検索結果文章からユーザが望む文章に絞り込むために推奨される1個又は複数個の推奨単語を決定する。
【選択図】 図2
【特許請求の範囲】
【請求項1】
ユーザにより入力された文字列を受け付ける受付部と、
検索対象の複数の文章を蓄積した文章集を前記受け付けた文字列に基づいて検索して、前記受け付けた文字列に適合する1個又は複数個の検索結果文章を取得する検索部と、
前記検索結果文章に文章解析を施して、前記検索結果文章を構成する単語間の係り受け関係を取得する解析部と、
前記受け付けた文字列と前記検索結果文章と前記係り受け関係とに基づいて、前記検索結果文章からユーザが望む文章に絞り込むために推奨される1個又は複数個の推奨単語を決定する決定部と、
を具備する文章検索装置。
【請求項2】
前記複数の文章各々は、質問文と当該質問文に対する回答文との組合せを有し、
前記受付部は、前記文字列として、質問形式の問合せ文章を受け付ける、
前記検索部は、前記検索結果文章として、前記質問文及び/又は前記回答文を取得する、
請求項1記載の文章検索装置。
【請求項3】
前記推奨単語を表示機器に表示する表示制御部を更に備える、請求項1又は2記載の文章検索装置。
【請求項4】
前記表示制御部は、前記推奨単語と共に前記検索結果文章を表示機器に表示する、請求項3記載の文章検索装置。
【請求項5】
前記表示制御部は、前記推奨単語と、前記検索結果文章を構成する単語のうちの前記推奨単語とは異なる単語との関係性を表示する、請求項4記載の文章検索装置。
【請求項6】
前記決定部は、
前記受け付けた文字列と前記検索結果文章と前記係り受け関係とに基づいて1個又は複数個の第1の推奨単語候補を決定し、
前記受け付けた文字列と前記検索結果文章と前記検索結果文章を構成する単語毎の出現度とに基づいて1個又は複数個の第2の推奨単語候補を決定し、
前記第1の推奨単語候補と前記第2の推奨単語候補とに基づいて前記推奨単語を決定する、
請求項1記載の文章検索装置。
【請求項7】
前記決定部は、前記複数個の推奨単語の中から他の推奨単語に類似する推奨単語を削除する、請求項1記載の文章検索装置。
【請求項8】
前記決定部は、
前記複数個の検索結果文章にそれぞれ対応する複数のカテゴリの中から、前記ユーザが関心のあるカテゴリである関心カテゴリを推定し、
前記関心カテゴリと前記受け付けた文字列と前記検索結果文章と前記係り受け関係とに基づいて、前記推奨単語を決定する、
請求項1記載の文章検索装置。
【請求項9】
前記決定部は、
前記複数個の検索結果文章各々を構成する単語と前記受け付けた文字列を構成する単語列との一致度に基づいて前記複数個の検索結果文章の順位を決定し、
前記順位と前記受け付けた文字列と前記検索結果文章と前記係り受け関係とに基づいて前記推奨単語を決定する、
請求項1記載の文章検索装置。
【請求項10】
前記解析部は、前記文章解析として、係り受け解析、構文解析及び/又はグラフベースランキング法を使用する、請求項1記載の文章検索装置。
【請求項11】
前記決定部は、前記推奨単語として、前記検索結果文章を構成する単語のうちの前記受け付けた文字列に含まれる単語に対して修飾関係にある単語と、前記検索結果文章を構成する単語のうちの基点単語に対する主語又は目的語と、前記検索結果文章を構成する単語のうちの前記基点単語に対する副詞的修飾節とのうちの何れか1つを決定する、請求項1記載の文章検索装置。
【請求項12】
ユーザから入力された文字列を受け付け、
検索対象の複数の文章を蓄積した文章集を前記受け付けた文字列に基づいて検索して、前記受け付けた文字列に適合する1個又は複数個の検索結果文章を取得し、
前記検索結果文章に文章解析を施して、前記検索結果文章を構成する単語間の係り受け関係を取得し、
前記受け付けた文字列と前記検索結果文章と前記係り受け関係とに基づいて、前記検索結果文章からユーザが望む文章に絞り込むために推奨される1個又は複数個の推奨単語を決定する、
ことを具備する文章検索方法。
【請求項13】
コンピュータに、
ユーザから入力された文字列を受け付けさせる機能と、
検索対象の複数の文章を蓄積した文章集を前記受け付けた文字列に基づいて検索して、前記受け付けた文字列に適合する1個又は複数個の検索結果文章を取得させる機能と、
前記検索結果文章に文章解析を施して、前記検索結果文章を構成する単語間の係り受け関係を取得させる機能と、
前記受け付けた文字列と前記検索結果文章と前記係り受け関係とに基づいて、前記検索結果文章からユーザが望む文章に絞り込むために推奨される1個又は複数個の推奨単語を決定させる機能と、
を実現させる文章検索プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、文章検索装置、方法及びプログラムに関する。
【背景技術】
【0002】
ユーザからの問合せに対して質問回答集を検索して当該問合せに合致する質問と回答との組合せを選出する対話型の文章検索システムが存在する。当該システムでは、検索結果である質問回答ペアが2件以上ある場合、検索結果を絞り込むために推奨単語が提供されている。推奨単語は、検索結果に含まれる各単語の出現度に基づいて決定されている。このため、推奨単語が検索結果の絞り込みに必ずしも有効でない場合がある。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2020-123131号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
本発明が解決しようとする課題は、対話型の文章検索において検索結果の絞り込みに有用な推奨単語を選定可能な文章検索装置、方法及びプログラムを提供することである。
【課題を解決するための手段】
【0005】
実施形態に係る文章検索装置は、受付部、検索部、解析部及び決定部を有する。受付部は、ユーザにより入力された文字列を受け付ける。検索部は、検索対象の複数の文章を蓄積した文章集を前記受け付けた文字列に基づいて検索して、前記受け付けた文字列に適合する1個又は複数個の検索結果文章を取得する。解析部は、前記検索結果文章に文章解析を施して、前記検索結果文章を構成する単語間の係り受け関係を取得する。決定部は、前記受け付けた文字列と前記検索結果文章と前記係り受け関係とに基づいて、前記検索結果文章からユーザが望む文章に絞り込むために推奨される1個又は複数個の推奨単語を決定する。
【図面の簡単な説明】
【0006】
図1】文章検索システムの構成例を示す図
図2】文章検索装置の構成例を示す図
図3】第1実施形態に係る質問回答集のデータ構造の一例を示す図
図4】文章検索処理の処理手順の一例を示す図
図5図4のステップS406における対話画面の一例を示す図
図6図4のステップS410における対話画面の一例を示す図
図7】実施例1に係る文章解析処理及び推奨単語決定処理を例示する図
図8】検索結果質問文「勤務承認申請の承認者の選択でエラーが表示された」の解析結果を示す図
図9】実施例2に係る文章解析処理及び推奨単語決定処理を例示する図
図10】検索結果質問文「特許提案申請の期限はいつまでですか」の解析結果を示す図
図11】実施例3に係る他の文章解析処理及び推奨単語決定処理を例示する図
図12】検索結果質問文「勤務承認の申請内容を変更するために取り消し申請したい」の解析結果を示す図
図13】第3実施形態に係る動作例を示す図
図14】第3実施形態に係る他の動作例を示す図
図15】第3実施形態に係る他の動作例を示す図
図16】第4実施形態に係る質問回答集のデータ構造の一例を示す図
図17】第4実施形態に係る動作例を示す図
図18】第5実施形態に係る動作例を示す図
図19】比較例に係る文章解析処理及び推奨単語決定処理を例示する図
【発明を実施するための形態】
【0007】
以下、図面を参照しながら本実施形態に係わる文章検索装置、方法及びプログラムを説明する。
【0008】
(第1実施形態)
図1は、第1実施形態に係る文章検索システム1の構成例を示す図である。文章検索システム1は、ユーザからの問合せに基づき文章集を検索して当該問合せに合致する文章を選出する対話型の文章検索を実行するコンピュータネットワークシステムである。図1に示すように、文章検索システム1は、文章検索装置100、文章データベース200及びクライアント端末300を有する。
【0009】
文章データベース200は、検索対象の複数の文章を蓄積した文章集に関するデータベースを保持するコンピュータである。本実施形態に係る文章の形式は、特に限定されず、質問文と回答文との2種の文章の組合せであってもよいし、単一の文章でもよいし、その他の如何なる文章の形式でもよい。
【0010】
クライアント端末300は、文章検索システム1のユーザが使用するコンピュータである。クライアント端末300は、ハードウェアとして、プロセッサや入力機器、表示機器及び通信機器を有し、文章検索システム1のユーザインタフェースとして機能する。例えば、クライアント端末300は、入力機器を介してユーザにより入力された、問合せに関する文字列を受け付ける。問合せに関する文字列は、自然文として入力されてもよいし、単語として入力されてもよい。単語は、1個の単語として入力されてもよいし、複数個の単語を含む単語列として入力されてもよい。問合せに関する文字列は、文章検索装置100に送信される。また、クライアント端末300は、文章検索装置100から検索結果等を受信し、表示機器に表示する。
【0011】
図2は、文章検索システム1に含まれる文章検索装置100の構成例を示す図である。図2に示すように、文章検索装置100は、処理回路11、記憶装置12、入力機器13、通信機器14及び表示機器15を有するコンピュータである。処理回路11、記憶装置12、入力機器13、通信機器14及び表示機器15間のデータ通信はバスを介して行われる。文章検索装置100は、文章検索システム1のサーバ装置として機能する。具体的には、文章検索装置100は、クライアント端末300からユーザからの問合せに関する文字列を受け付け、受け付けた問合せに関する文字列に基づいて、文章データベース200に記憶されている文章集を検索して、検索結果をクライアント端末300に表示する。
【0012】
処理回路11は、CPU(Central Processing Unit)等のプロセッサとRAM(Random Access Memory)等のメモリとを有する。処理回路11は、受付部111、検索部112、解析部113、決定部114、表示制御部115及び統括制御部116を有する。処理回路11は、文章検索プログラムを実行することにより、上記各部111~116の各機能を実現する。文章検索プログラムは、記憶装置12等の非一時的コンピュータ読み取り可能な記録媒体に記憶されている。文章検索プログラムは、上記各部111~116の全ての機能を記述する単一のプログラムとして実装されてもよいし、幾つかの機能単位に分割された複数のモジュールとして実装されてもよい。また、上記各部111~116は特定用途向け集積回路(Application Specific Integrated Circuit:ASIC)等の集積回路により実装されてもよい。この場合、単一の集積回路に実装されてもよいし、複数の集積回路に個別に実装されてもよい。
【0013】
受付部111は、ユーザから問合せに関する文字列を受け付ける。具体的には、受付部111は、クライアント端末300を介して入力された問合せに関する文字列を取得する。以下、問合せに関する文字列を問合せ文と呼ぶことにする。
【0014】
検索部112は、検索対象の複数の文章を蓄積した文章集を、受付部111により受け付けた文字列に基づいて検索して、当該受け付けた文字列に適合する1個又は複数個の文章を取得する。以下、検索結果として取得された文章を検索結果文章と呼ぶことにする。
【0015】
解析部113は、検索部112により取得された検索結果文章に文章解析を施して、当該検索結果文章を構成する単語間の係り受け関係を取得する。解析部113は、文章解析として、係り受け解析、構文解析及び/又はグラフベースランキング法を使用する。
【0016】
決定部114は、受付部111により受け付けた文字列と検索部112により取得された検索結果文章と解析部113により取得された係り受け関係とに基づいて、当該検索結果文章からユーザが望む文章に絞り込むために推奨される1個又は複数個の推奨単語を決定する。決定部114は、推奨単語として、検索結果文章を構成する単語のうちの当該問合せ文に含まれる単語に対して修飾関係にある単語と、検索結果文章を構成する単語のうちの基点単語に対する主語又は目的語と、検索結果文章を構成する単語のうちの基点単語に対する副詞的修飾節中の単語とのうちの何れか1つを決定する。基点単語とは、文章の構造を木構造で表現したときに、親ノード(節点、頂点)を持たない最上位にある根ノードに位置する単語であり、当該文章に含まれる全ての係り受け関係を表すリンク(矢印)の出発点となる単語である。
【0017】
表示制御部115は、種々の情報を表示機器15又はクライアント端末300の表示機器に表示する。一例として、表示制御部115は、検索部112により取得された検索結果文章や決定部114により決定された推奨単語を表示する。
【0018】
統括制御部116は、処理回路11により文章検索プログラムに従い行われる文章検索処理を統括制御する。例えば、統括制御部116は、文章検索プログラムに従う処理手順に従い受付部111、検索部112、解析部113、決定部114及び表示制御部115を動作させる。
【0019】
記憶装置12は、ROM(Read Only Memory)やHDD(Hard Disk Drive)、SSD(Solid State Drive)、集積回路記憶装置等により構成される。記憶装置12は、文章検索プログラム等を記憶する。
【0020】
入力機器13は、操作者からの各種指令を入力する。入力機器13としては、キーボードやマウス、各種スイッチ、タッチパッド、タッチパネルディスプレイ等が利用可能である。入力機器13からの出力信号は処理回路11に供給される。
【0021】
通信機器14は、文章検索装置100にネットワークを介して接続された外部機器との間でデータ通信を行うためのインタフェースである。一例として、通信機器14は、文章データベース200又はクライアント端末300との間でデータ通信を行う。
【0022】
表示機器15は、種々の情報を表示する。表示機器15としては、CRT(Cathode-Ray Tube)ディスプレイや液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ、LED(Light-Emitting Diode)ディスプレイ、プラズマディスプレイ又は当技術分野で知られている他の任意のディスプレイが適宜利用可能である。また、表示機器15は、プロジェクタでもよい。
【0023】
以下、文章検索装置100による文章検索処理について説明する。以下の説明において検索対象の文章は、質問文と当該質問文に対応する回答文との組合せであるとする。質問文と回答文との組合せに対する検索はQA検索とも呼ばれる。以下、当該組合せを質問回答ペアと呼ぶことにする。QA検索において文章データベース200は、文章集として、種々の質問回答ペアを蓄積した質問回答集を記憶している。QA検索において受付部111は、問合せ文として、質問形式の問合せ文章を受け付ける。検索部112は、検索結果文章として、質問文、回答文又は質問回答ペアを取得する。なお、以下の実施例では、説明を具体的に行うため、検索結果文章は質問回答ペアであるとする。
【0024】
図3は、質問回答集のデータ構造の一例を示す図である。図3に示すように、質問回答集は、質問文と当該質問文に対する回答文との組合せである質問回答ペアの集積である。各質問回答ペアには当該質問回答ペアを一意に識別するためのID番号が付されている。例えば、ID「1」の質問回答ペアは、質問文「特許提案申請の期限はいつまでですか」であり、回答文は「特許提案申請の期限は、・・・」である。質問文と回答文とは、人手により入力されるのが通常であるが、コンピュータにより自動的に入力されてもよい。
【0025】
図4は、文章検索装置100による文章検索処理の処理手順の一例を示す図である。図4に示すように、受付部111は、ユーザからの問合せに関する文字列(問合せ文)を受け付ける(ステップS401)。ステップS401の処理手順の一例は以下の通りである。まず、ユーザは、クライアント端末300の入力機器を介して問合せ文を入力する。クライアント端末300は、問合せ文を文章検索装置100に送信する。文章検索装置100の通信機器14は、クライアント端末300からの問合せ文を受信し、受付部111は、受信された問合せ文を受け付ける。
【0026】
検索部112は、ステップS401において受け付けた問合せ文に基づき文章データベース200に記憶されている質問回答集を検索する(ステップS402)。そして、検索部112は、質問回答集に蓄積されている複数の質問回答ペアの中から、問合せ文に適合する質問回答ペアを、検索結果文章として取得する。
【0027】
ステップS402の処理手順の一例は下記の通りである。まず、検索部112は、問合せ文に対して形態素解析を行い当該問合せ文に含まれる単語を抽出し、抽出された単語の中から検索ワードを設定する。例えば、抽出された単語のうちの名詞や動詞等の特定の品詞に属する単語が検索ワードに設定される。他の例として、質問回答集の各質問回答ペアに、使用され得る検索ワード候補が登録されており、抽出された単語のうちの質問回答集に登録された検索ワード候補が検索ワードに設定されてもよい。他の例として、検索部112は、問合せ文の全体を検索ワードに設定してもよい。次に検索部112は、検索ワードで質問回答集を検索する。具体的には、質問回答集に含まれる複数の質問回答ペアの中から検索ワードを含む質問回答ペアを特定し、特定された質問回答ペアを、検索結果文章として、質問回答集から取得する。検索ワードを含む質問回答ペアは、検索ワードを含む質問文が属する質問回答ペアでもよいし、検索ワードを含む回答文が属する質問回答ペアでもよいし、質問文及び回答文各々が検索ワードを含む質問回答ペアでもよい。
【0028】
ステップS402が行われると統括制御部116は、ステップS402により取得された検索結果文章の個数が閾値以上であるか否かを判定する(ステップS403)。ステップS403においては、具体的には、検索結果文章として取得された質問回答ペアの個数が閾値以上であるか否かが判定される。閾値以上である場合、検索結果すなわち検索結果文章を絞り込む必要があるので、ステップS404~S407が行われる。閾値未満である場合、ステップS404~S407は省略される。典型的には閾値は2個に設定されるとよいが、3個以上に設定されてもよい。
【0029】
ステップS403において検索結果文章の個数が閾値以上であると判定された場合(ステップS403:YES)、解析部113は、検索結果文章を文章解析する(ステップS404)。文章解析の対象は、検索結果文章である質問回答ペアのうちの質問文でもよいし、回答文でもよいし、質問文と回答文との双方でもよい。文章解析の対象は、ユーザ等により任意に設定可能である。以下の実施例において文章解析の対象は、質問文であるとする。検索結果文章である質問回答ペアのうちの質問文を、検索結果質問文と呼ぶことにする。文章解析により、各検索結果質問文に含まれる単語間の係り受け関係が取得される。文章解析の詳細については後述する。
【0030】
ステップS404が行われると決定部114は、ステップS401において受け付けた問合せ文とステップS402において取得された検索結果文章とステップS404において取得された係り受け関係とに基づいて、当該検索結果文章からユーザが望む文章へ絞り込むために推奨される1個又は複数個の推奨単語を決定する(ステップS405)。決定部114は、推奨単語として、検索結果文章を構成する単語のうちの検索ワードに対して係り受け関係にある単語と、検索結果文章を構成する単語のうちの基点単語に対する主語又は目的語と、検索結果文章を構成する単語のうちの基点単語に対する副詞的修飾節とのうちの何れか1つを決定する。推奨単語の決定の詳細については後述する。
【0031】
ステップS405が行われると表示制御部115は、ステップS404において取得された検索結果文章とステップS404とステップS405において決定された推奨単語とを表示する(ステップS406)。一例として、表示制御部115は、検索結果文章と推奨単語とが表示された対話画面を、クライアント端末300の表示機器に表示する。
【0032】
図5は、ステップS406における対話画面I1の一例を示す図である。図5に示すように、対話画面I1には、ユーザ側のメッセージ表示欄I11と、ロボット側のメッセージ表示欄I12とを含む。ロボットは、文章検索装置100により実現されるチャットボットを意味する。対話画面I1には、ユーザ側のメッセージとロボット側のメッセージとが対話形式で時系列に表示される。メッセージ表示欄I11には、ステップS401で受け付けた問合せ文が表示される。メッセージ表示欄I12には、ステップS405で決定された推奨単語I121とステップS402で取得された検索結果文章I122とが表示される。検索結果文章I122としては、検索結果質問文が表示されると良い。
【0033】
図5の例では、問合せ文は「申請したい」である。文章検索装置100は、当該問合せ文に基づき検索ワード「申請」を決定し、当該検索ワードに基づき7件の検索結果文章I122を取得している。検索結果文章I122の個数が閾値以上であり、「勤務承認」「特許提案」「参観」の3個の推奨単語I121が決定されている。このように得られた検索結果文章I122と推奨単語I121とが個別に選択可能にメッセージ表示欄I12に表示される。検索結果文章I122としては、典型的には質問文が表示される。しかしながら、本実施形態はこれに限定されず、回答文が表示されてもよいし、質問文と回答文との双方が表示されてもよい。
【0034】
ユーザは、メッセージ表示欄I12に表示される検索結果文章I122の個数が多く、検索結果文章I122を絞り込みたい場合には、クライアント端末300の入力機器等を介して、推奨単語I121を選択することとなる。一方、メッセージ表示欄I12に表示される検索結果文章I122の中からユーザの問合せに適用する検索結果文章を見つけた場合、ユーザは、クライアント端末300の入力機器等を介して、所望の検索結果文章I122を選択することとなる。
【0035】
ステップS406が行われると統括制御部116は、推奨単語と検索結果文章との何れが選択されたかを判定する(ステップS407)。推奨単語が選択された場合(ステップS407:推奨単語)、統括制御部116は、検索部112にステップS408を実行させる。検索部112は、ステップS407において選択された推奨単語に基づいて、検索結果文章を絞り込む(ステップS408)。具体的には、ステップS408において検索部112は、複数個の質問回答ペアの中から、選択された推奨単語を含む質問回答ペアを抽出する。一例として、検索部112は、選択された推奨単語を含む検索結果質問文を複数個の質問回答ペアの中から特定し、特定された検索結果質問文が属する質問回答ペアを抽出する。
【0036】
ステップS408が行われると統括制御部116は、絞り込み後の検索結果文章の個数が閾値以上であるか否かを判定する(ステップS409)。ステップS409においては、具体的には、絞り込み後の検索結果文章の個数が閾値以上であるか否かが判定される。閾値以上である場合、検索結果文章を更に絞り込む必要があるので、絞り込み後の検索結果文章について再びステップS404~S407が行われる。閾値未満である場合、ステップS404~S407は省略される。典型的には閾値は2個に設定されるとよいが、3個以上に設定されてもよい。
【0037】
このようにして、ステップS407において検索結果文章が選択されるまで、又はステップS409において絞り込み後の検索結果文章の個数が閾値以上でないと判定されるまで、ステップS404~S409が繰り返される。
【0038】
そして、ステップS403において検索結果文章の個数が閾値以上でないと判定された場合(ステップS403:NO)、ステップS407において検索結果文章が選択された場合(ステップS407:検索結果文章)又はステップS409において絞り込み後の検索結果文章の個数が閾値以上でないと判定された場合(ステップS409:NO)、統括制御部116は、表示制御部115にステップS410を実行させる。表示制御部115は、検索結果文章に対応する回答文(以下、対応回答文)を表示する(ステップS410)。一例として、表示制御部115は、対応回答文が表示された対話画面を、クライアント端末300の表示機器に表示する。
【0039】
図6は、ステップS410における対話画面I2の一例を示す図である。図6に示す対話画面I2は、図5に示す対話画面I1の続きである。図6の例では、「勤務承認」「特許提案」「参観」の3個の推奨単語I121のうちの「特許提案」が選択されたものとする。この場合、メッセージ表示欄I13に、選択された推奨単語「特許提案」が表示される。ステップS408において検索部112は、選択された推奨単語「特許提案」に基づいて7件の質問回答ペアを絞り込む。図6の例では、絞り込みの結果、1件の質問回答ペアが抽出されたものとする。この場合、絞り込み後の質問回答ペアの個数が閾値(2個)未満であるので(ステップS409:NO)、ロボット側のメッセージ表示欄I14に、絞り込み後の質問回答ペアのうちの対応回答文が表示される。
【0040】
上記の通り、第1実施形態においては、検索結果文章に含まれる単語間の係り受け関係を利用して推奨単語を決定しているので、検索結果文章の構造や単語間の文法的関係性を考慮した正確な推奨単語を提示することが可能である。正確な推奨単語が表示されるので、ユーザは、自身が望む検索結果文章を容易且つ効率的に見つけ出すことが可能になる。
【0041】
ステップS410が行われると文章検索処理が終了する。
【0042】
次に、ステップS404に係る文章解析処理とステップS405に係る推奨単語決定処理とについて詳細に説明する。まず、比較例に係る文章解析処理及び推奨単語決定処理について説明する。比較例は、検索結果文章に含まれる単語の出現度に基づき推奨単語を決定する。
【0043】
図19は、比較例に係る文章解析処理及び推奨単語決定処理を例示する図である。図18に示すように、問合せ文は「申請したい」であり、検索ワードは「申請」である。検索ワード「申請」に基づき、文字列「申請」を含む7個の検索結果文章(質問回答ペア)が取得されたものとする。各質問回答ペアのうちの検索結果質問文は、「勤務承認申請の承認者の選択でエラーが表示された」「勤務承認の申請内容を変更するために取り消し申請したい」「特許提案の申請時に添付されたファイルを承認者が変更する場合」「特許提案申請の期限はいつまでですか」「参観申請の承認者選択でエラーがでました」「参加申請の参加者を変更したい」「申請のポータルサイトログイン時にエラーが表示されて入れない」であるとする。図19に示す各質問回答ペアに付した符号はID番号である。
【0044】
比較例に係る決定部114は、各検索結果質問文に含まれる各単語の出現度に基づき推奨単語を決定する。具体的な処理手順は以下の通りである。まず、決定部114は、各検索結果質問文を単語に分解し、取得された全ての検索結果質問文に含まれる各単語の出現数を計数する。そして決定部114は、各単語について出現数に基づいてエントロピースコアを算出する。エントロピースコアyは、当該単語の価値を評価する指標値の一例である。一例として、エントロピースコアyは、出現数と検索結果数とに基づいて下記(1)式に従い算出される。なお、検索結果数は、検索結果質問文の個数を意味する。本事例において当該個数は7個である。検索結果質問文に含まれる各単語のエントロピースコアは、図19の表に示す通りである。
【0045】
y=-p・log(p) (1)
p=出現数/検索結果数
【0046】
本事例において決定部114は、7個の検索結果質問文に含まれる各単語のエントロピースコアに基づいて推奨単語を決定する。典型的には、7個の検索結果質問文に含まれる単語の中から、エントロピースコアが指定順位に位置する任意の個数の推奨単語が選択される。例えば、図19の例では、エントロピースコアが同率で1位である3個の単語「承認者」「エラー」「変更」が推奨単語として選択される。なお、図19の各検索結果質問文に含まれる文字のうちエントロピースコアの算出対象の単語が太字で示され、推奨単語がグレーで示されている。
【0047】
ところで、図19に例示する検索結果質問文のように、似た意図の文章の表現がバラバラであったり、文章が表す意図と関係性が低い付加的な表現が文章中に挿入されていたりする場合、出現度という観点のみでは適切な推奨単語を選出することができない。また、出現度が低い検索結果質問文にユーザの関心がある場合もあり、この場合もやはり出現度という観点のみでは適切な推奨単語を選出することができない。
【0048】
そこで、本実施形態に係る決定部114は、検索結果質問文を構成する単語間の係り受け関係に基づいて推奨単語を選出する。以下、本実施形態に係る文章解析処理及び推奨単語決定処理の幾つかの実施例について説明する。
【0049】
[実施例1]
実施例1に係る決定部114は、検索結果文章に含まれる単語のうちの、検索ワードに対して係り受け関係にある単語から推奨単語を決定する。
【0050】
図7は、実施例1に係る文章解析処理及び推奨単語決定処理を例示する図である。図7に示す問合せ文、検索ワード及び検索結果文章は、図19に示す比較例と同一であるとする。
【0051】
検索部112により検索結果質問文が取得された場合、解析部113は、各検索結果質問文に文章解析を施し、各検索結果文章に含まれる単語間の係り受け関係を取得する。係り受け関係としては、少なくとも単語間のつながりの有無と文法的関係性とが取得される。つながりは、2単語が係り元と係り先との関係にあることを意味する。文法的関係性は、係り元と係り先との文法的な関係性であり、例えば、被修飾語と修飾語の関係(修飾関係)あるいは主語と述語の関係を意味する。
【0052】
図8は、実施例1に係る文章解析による検索結果質問文「勤務承認申請の承認者の選択でエラーが表示された」の解析結果を示す図である。図8に示すように、解析部113は、検索結果質問文に形態素解析を施して単語に分解し、各単語の品詞、すなわち、名詞や助詞、動詞、助動詞等を決定する。解析部113は、検索結果質問文に含まれる複数の単語の中から検索ワードを特定する。図8の場合、検索ワード「申請」が特定される。次に解析部113は、検索結果質問文に係り受け解析等の文章解析を施して、検索ワード「申請」に対して係り受け関係にある単語を特定する。文章解析としては、係り受け解析、構文解析及び/又はグラフベースランキング法が用いられればよい。図8に示す検索結果質問文の場合、検索ワード「申請」を修飾している名詞として「勤務承認」が、検索ワード「申請」が修飾している名詞として「承認者」が特定される。なお、検索ワード「申請」に対して主語又は述語の関係にある単語がある場合、当該単語も、検索ワード「申請」に対して係り受け関係にある単語として特定される。
【0053】
解析部113は、各検索結果質問文に対して図8に示す文章解析を行い、検索ワード「申請」に対して係り受け関係にある単語を特定する。決定部114は、各検索結果質問文から、検索ワード「申請」に対して係り受け関係にある単語を推奨単語候補として取得する。
【0054】
推奨単語候補として特定される単語の連結数は、任意に設定可能である。連結数は、検索ワードを基点として係り受け関係にある単語を順次特定していった場合の、最終的な係り先と検索ワードとに介在する係り受け関係の個数に相当する。図8の例では、連結数は1に設定されている。その結果、検索ワード「申請」に連結した単語として、「勤務承認申請」「申請承認者」が推奨単語候補として選定される。「選択」は連結数「2」であるので推奨単語候補として選定されない。なお、日本語において、助詞の有無は軽微な差であり単語の表す意味に影響を与える度合いは小さい。そこで、推奨単語候補を選定する際に助詞は省略している。
【0055】
決定部114は、各推奨単語候補について当該推奨単語候補の出現数に基づいてスコアを算出する。スコアは、検索結果質問文に現れる当該推奨単語候補の出現数に基づいて算出することが可能である。出現数に基づくスコアは、エントロピースコアとして、上記(1)式に従い算出可能である。ここで、スコアは、単語の出現数をそのまま利用して算出してもよいし、出現数を検索結果数で除算した出現確率を利用して算出してもよい。他の例として、当該推奨単語候補が属する質問回答ペアの個数に基づくスコアが算出されてもよい。図7には、検索ワード「申請」と修飾関係にある名詞のスコアが例示されている。
【0056】
そして決定部114は、推奨単語候補の中からスコアが選定基準を満たすものを推奨単語として選択する。選定基準は、例えば、スコアが指定順位に位置する事、閾値以上である事等に設定される。例えば、図7に示すように、スコアが1位である3個の名詞「勤務承認申請」「特許提案申請」「参観申請」が推奨単語として選択される。選択された推奨単語「勤務承認申請」「特許提案申請」「参観申請」は、検索結果質問文の絞り込みのため、表示制御部115によりクライアント端末300等に表示される。
【0057】
推奨単語を表示する際、表示制御部115は、図7に示す検索結果文章(質問文)を表示してもよい。この際、表示制御部115は、推奨単語と、検索結果文章を構成する単語のうちの当該推奨単語とは異なる単語との関係性を表示してもよい。例えば、表示制御部115は、推奨単語を他の単語に対して視覚的に区別して表示してもよい。図7において推奨単語はグレーで表示されているが、他の色や字体等の視覚効果で表示してもよい。これによりユーザは、検索結果文章における推奨単語を容易に確認することができる。他の例として、表示制御部115は、推奨単語候補として特定された単語を他の単語に対して視覚的に区別して表示してもよい。図7において推奨単語候補として特定された単語は太字で表示されているが、他の字体や色等の視覚効果で表示してもよい。
【0058】
表示制御部115は、推奨単語と他の単語との関係性を表示してもよい。例えば、図8に示すような、検索結果文章の文章解析結果を表示してもよい。具体的には、検索結果文章に含まれる単語間のつながりの有無を表す矢印、検索結果文章に含まれる単語間の文法的関係性を表す文字列や記号を表示してもよい。また、検索結果文章に含まれる検索ワードや推奨単語を他の単語に対して視覚的に区別して表示してもよい。文章解析結果を表示することにより、推奨単語が選定された根拠をユーザに提示することができる。これによりユーザによる推奨単語の選択の利便性ひいては絞り込み検索の利便性が向上する。
【0059】
推奨単語の個数に上限が設定されてもよい。上限の数値は特に限定されず、1個~5個程度から任意の値に設定されればよい。もちろん、6個以上が上限に設定されてもよい。決定部114は、当該上限未満の個数の推奨単語を選択する。具体的には、上記選定基準を満たす推奨単語候補の個数が上限を超えない場合、決定部114は、当該推奨単語候補を推奨単語として選択する。一方、上記選定基準を満たす推奨単語候補の個数が上限を超える場合、決定部114は、当該選定基準の内容を、推奨単語候補の個数が上限を超えないように変更する。例えば、スコアの順位を上げたり、閾値を上げたりする。そして決定部114は、変更後の選定基準を満たす推奨単語候補を推奨単語として選択する。上限を設けることにより、表示される推奨単語の個数を減らし、ユーザによる推奨単語の選択に関する利便性を向上させることが可能である。
【0060】
実施例1によれば、1つ1つの単語の出現数だけでなく、単語間の文法的な関係性を活用することで絞り込み検索のための推奨単語としてより適切な単語を選定することができる。これは、検索ワード「申請」に対して係り受け関係にある単語は、その単語の修飾表現になっているためである。一般に単語に修飾表現を付加していくと意味が詳細化される。係り受け関係を分析することにより、検索ワードを文法的に修飾する単語を見つけることができるので、ユーザが入力した問合せ文に対する適切な推奨単語を提示することができる。
【0061】
[実施例2]
実施例2に係る決定部114は、検索結果文章に含まれる単語のうちの、基点となる単語(以下、基点単語)の主語又は目的語を推奨単語として決定する。以下、実施例2について説明する。なお、推奨単語の表示処理等の実施例1に共通する部分については説明を省略する。
【0062】
図9は、実施例2に係る文章解析処理及び推奨単語決定処理を例示する図である。図9に示す問合せ文、検索ワード及び検索結果文章は、図7と同一であるとする。検索部112により検索結果文章が取得された場合、解析部113は、各検索結果質問文に文章解析を施し、基点単語の主語又は目的語を特定する。
【0063】
図10は、実施例2に係る文章解析による検索結果質問文「特許提案申請の期限はいつまでですか」の解析結果を示す図である。図10に示すように、解析部113は、検索結果質問文に形態素解析が施して単語に分解し、各単語の品詞を決定する。解析部113は、検索結果質問文に含まれる複数の単語の中から検索ワードを特定する。図10の場合、検索ワード「申請」が特定される。次に解析部113は、検索結果質問文に係り受け解析等の文章解析を施して、検索ワード「申請」に対して係り受け関係にある単語を特定する。文章解析としては、係り受け解析、構文解析及び/又はグラフベースランキング法が用いられればよい。次に解析部113は、係り受け関係に基づいて基点単語を特定する。基点単語は、「root」とも呼ばれ、係り受け関係を木構造で表現したときの頂点に位置する単語である。基点単語は、文章が本質的に問うている言葉に対応する。例えば、検索結果質問文「特許提案申請の期限はいつまでですか」の場合、「いつまでですか」のように期限を問うていることから基点単語は「いつ」である。そして解析部113は、基点単語の主語又は目的語を特定する。基点単語の主語又は目的語は、その文章が問うている対象を表す。なお、基点単語が検索ワードに一致する場合もあるが、それも許容される。
【0064】
解析部113は、各検索結果質問文に対して図10に示す文章解析を行い、各検索結果質問文に対して基点単語の主語又は目的語を特定する。そして決定部114は、特定された基点単語の主語又は目的語を推奨単語候補として選定する。この際、決定部114は、基点単語に係り受けしている単語だけでなく、当該単語を修飾している単語も同時に取得し連結する。これは、その単語の方が人間によって理解しやすいためである。例えば、基点単語「いつ」の主語である「期限」に加えて、「期限」を修飾する「申請の」、「申請の」を修飾する「特許提案」を連結し、「特許提案申請の期限」という単語が推奨単語候補として選定される。実施例1と同様、連結数は任意に設定可能である。
【0065】
実施例2に係る方法により、各検索結果質問文が本質的に問うている対象の単語を推奨単語候補として得ることができる。つまり、ユーザが何を問合せたかったのかを推奨単語で提示することが可能となり、推奨単語の中にユーザの問合せたいことが表示されていればそれを選ぶことで検索結果質問文を的確に絞り込むことができる。そして決定部114は、推奨単語候補の中からスコアが選定基準を満たすものを推奨単語として選択する。選定基準は、実施例1と同一のものが用いられればよい。推奨単語は、表示制御部115によりクライアント端末300に表示される。
【0066】
[実施例3]
実施例3に係る決定部114は、検索結果文章に含まれる単語のうちの、基点単語の副詞的修飾節を推奨単語として決定する。以下、実施例3について説明する。なお、推奨単語の表示処理等の実施例1に共通する部分については説明を省略する。
【0067】
図11は、実施例3に係る文章解析処理及び推奨単語決定処理を例示する図である。図11に示す問合せ文、検索ワード及び検索結果文章は、図7と同一であるとする。検索部112により検索結果文章が取得された場合、解析部113は、各検索結果文章に文章解析を施し、基点単語の副詞的修飾節を特定する。
【0068】
図12は、実施例3に係る文章解析による検索結果質問文「勤務承認の申請内容を変更するために取り消し申請したい」の解析結果を示す図である。図12に示すように、解析部113は、検索結果質問文に形態素解析を施して単語に分解し、各単語の品詞を決定する。解析部113は、検索結果質問文に含まれる複数の単語の中から検索ワードを特定する。図12の場合、検索ワード「申請」が特定される。次に解析部113は、検索結果質問文に係り受け解析等の文章解析を施して、検索ワード「申請」に対して係り受け関係にある単語を特定する。文章解析としては、係り受け解析、構文解析及び/又はグラフベースランキング法が用いられればよい。次に解析部113は、係り受け関係に基づいて基点単語を特定する。そして解析部113は、特定された基点単語の副詞的修飾節を特定する。副詞的修飾節は、「~のため、~の時、~の場合、~されて」などの表現であり、文章中で「理由、背景、状況説明」を表す場合が多い。例えば、検索結果質問文「勤務承認の申請内容を変更するために取り消し申請したい」の場合、「取り消し申請」が基点単語として特定され、「勤務承認の申請内容を変更」が副詞的修飾節である。実施例1と同様、連結数は任意に設定可能である。
【0069】
解析部113は、各検索結果質問文に対して図12に示す文章解析を行い、各検索結果質問文に対して基点単語の副詞的修飾節を特定する。そして決定部114は、特定された基点単語の副詞的修飾節を推奨単語候補として選定する。推奨単語候補として、副詞的修飾節を構成する複数の単語の単語列が選定されてもよいし、当該複数の単語のうちの名詞や動詞等の特定の品詞に属する単語が選定されてもよい。そして決定部114は、推奨単語候補の中からスコアが選定基準を満たすものを推奨単語として選択する。選定基準は、実施例1と同一のものが用いられればよい。推奨単語は、表示制御部115によりクライアント端末300に表示される。
【0070】
実施例3によれば、検索結果質問文のような質問文をなぜすることになったのかという「理由、背景、状況説明」を得ることができる。つまり、ユーザが「なぜ」問い合わせたかったのかを推奨単語で応答することが可能となり、推奨単語の中にユーザの困っている状況が表示されていればそれを選ぶことで検索結果質問文を的確に絞り込むことができる。
【0071】
[その他]
実施例1、2及び3は適宜組み合わせ可能である。すなわち、決定部114は、実施例1により選定された推奨単語候補(検索ワードに対して係り受け関係にある単語)、実施例2により選定された推奨単語候補(基点単語の主語又は目的語)及び実施例3により選定された推奨単語候補(基点単語の副詞的修飾節)の中から選定基準に合致した1個又は複数個の候補を推奨単語に選定してもよい。選定基準は、スコアが上位指定順位にあるもの、スコアが閾値以上にあるもの等に設定されるとよい。
【0072】
なお、上記第1実施形態は種々の変形が可能である。例えば、推奨単語の使用態様はユーザへの提示のみに限定されない。一例として、検索部112は、表示制御部115により推奨単語を表示することなしに、推奨単語に基づいて自動的に検索結果質問文を絞り込んでもよい。他の変形例として、文章データベース200は、文章検索装置100とは別のコンピュータであるとしたが、文章検索装置100に含まれてもよい。同様に、クライアント端末300は、文章検索装置100にとは別のコンピュータであるとしたが、文章検索装置100に含まれてもよい。
【0073】
[総括]
第1実施形態に係る文章検索装置100は、受付部111、検索部112、解析部113及び決定部114を有する。受付部111は、ユーザにより入力された文字列(問合せ文)を受け付ける。検索部112は、検索対象の複数の文章を蓄積した文章集を前記問合せ文に基づいて検索して、前記問合せ文に適合する1個又は複数個の検索結果文章を取得する。解析部113は、前記検索結果文章に文章解析を施して、前記検索結果文章を構成する単語間の係り受け関係を取得する。決定部114は、前記問合せ文と前記検索結果文章と前記係り受け関係とに基づいて、前記検索結果文章からユーザが望む文章に絞り込むために推奨される1個又は複数個の推奨単語を決定する。
【0074】
上記の構成によれば、検索結果文章の単語間の係り受け関係を考慮して推奨単語を決定しているので、検索結果文章の各単語の出現度に基づき選定された推奨単語に比して、問合せ文に含まれていないユーザが実質的に問うている内容を表す単語を推奨単語として決定することが可能である。このような推奨単語を利用することにより対話型の文章検索をより効率的に行うことが可能になる。
【0075】
(第2実施形態)
第2実施形態に係る決定部114は、上記実施例1乃至3と比較例とを組み合わせて推奨単語を決定する。以下、第2実施形態2について説明する。以下、第2実施形態について説明する。なお以下の説明において、第1実施形態と略同一の機能を有する構成要素については、同一符号を付し、必要な場合にのみ重複説明する。また、対話検索の処理手順や推奨単語の表示処理等の第1実施形態に共通する部分については説明を省略する。
【0076】
第2実施形態に係る決定部114は、決定部114は、問合せ文と検索結果文章と解析部113により取得された係り受け関係とに基づいて1個又は複数個の第1の推奨単語候補を決定し、問合せ文と検索結果文章と当該検索結果文章を構成する単語毎の出現度とに基づいて1個又は複数個の第2の推奨単語候補を決定し、第1の推奨単語候補と第2の推奨単語候補とに基づいて推奨単語を決定する。第1の推奨単語候補は、図7図9及び図11に示すような、上記実施例1乃至3により決定された推奨単語候補である。第2の推奨単語候補は、図19に示すような、上記比較例により決定された推奨単語候補である。
【0077】
組合せの方法は種々様々である。一例として、決定部114は、第1の推奨単語候補について第1のスコアを計算し、第2の推奨単語候補について第2のスコアを計算し、推奨単語候補毎に第1のスコアと第2のスコアとの合計スコアを算出する。そして決定部114は、合計スコアが上記選定基準に合致するものを推奨単語として選定する。
【0078】
合計スコアTSは、下記(2)式に示すように、第1のスコアS1と第2のスコアS2との重み付け和により算出可能である。重みを適切に設定することにより、実施例1乃至3により決定された推奨単語候補を、比較例により決定された推奨単語候補に比して重要視することが可能である。例えば、第1のスコアS1に対する重みw1を、第2のスコアS2に対する重みw2に比して高く設定されるとよい。
【0079】
TS=w1・S1+w2・S2 (2)
【0080】
なお検索結果文章を構成する単語各々について第1のスコアと第2のスコアとの双方が算出されるとは限らない。単語が第1の推奨単語候補及び第2の推奨単語候補の双方に選出される場合もあるし、第1の推奨単語候補及び第2の推奨単語候補の何れか一方のみに選出される場合もあるし、第1の推奨単語候補及び第2の推奨単語候補の双方に選出されない場合もある。
【0081】
第2実施形態によれば、実施例1乃至3により決定された推奨単語候補と比較例により決定された推奨単語候補とに基づき推奨単語候補を決定する。これにより、実施例1乃至3による係り受け解析に加え、比較例による検索結果文章を構成する単語の出現数を加味して推奨単語を決定することが可能になる。
【0082】
(第3実施形態)
第3実施形態に係る決定部114は、複数個の推奨単語の中から他の推奨単語に類似する推奨単語を削除する。換言すれば、決定部114は、複数個の推奨単語のうちの互いに類似関係にある推奨単語の一群の中から1個の代表的な推奨単語を選定する。以下、第3実施形態について説明する。なお以下の説明において、第1実施形態と略同一の機能を有する構成要素については、同一符号を付し、必要な場合にのみ重複説明する。また、対話検索の処理手順や推奨単語の表示処理等の第1実施形態に共通する部分については説明を省略する。
【0083】
図13は、第3実施形態に係る動作例を示す図である。図13の左上の表に示すように、5個の推奨単語候補が特定され、推奨単語候補毎にスコアが算出されているものとする。絞り込み検索結果は、当該推奨単語候補が属する質問回答ペア(QA)のID番号を意味する。ID番号は、図7図9及び図11に示すID番号対応する。例えば、推奨単語「特許提案申請 承認者」は、スコア「0.3」であり、絞り込み検索結果「1、2、3、4、5」である。図13の事例は、スコアが下位よりも上位の推奨単語の方が絞り込み検索結果の該当件数が多い。
【0084】
推奨単語候補に同一単語又は表記が含まれる場合がある。第3実施形態においては、同一単語又は表記を部分的に含む推奨単語候補同士は、類似関係にあるものとする。5個の推奨単語のうちのスコアが上位4位にある「特許提案申請」「特許提案申請 承認者」「特許提案申請 承認者 確認」「特許提案申請 承認者 変更」をそのまま表示する場合、「特許提案申請」という同じ単語を含む単語ばかりが推奨単語として提示されることとなる。絞り込み検索結果を見れば分かるように、これら類似関係にある推奨単語候補は、所属する質問回答ペアが重複している。このため、類似関係にある推奨単語候補を推奨単語として提示をしても、質問回答ペアの絞り込みの効果の向上を見込めない。
【0085】
例えば、「特許提案申請」の絞り込み検索結果は「1、2、3、4、5、6、7」、「特許提案申請 承認者」の絞り込み検索結果は「1、2、3、4、5」、「特許提案申請 承認者 確認」の絞り込み検索結果は「1、3、5」、「特許提案申請 承認者 変更」の絞り込み検索結果は「2、4」であり、「特許提案申請」のみを推奨単語として提示する場合と、「特許提案申請」「特許提案申請 承認者」「特許提案申請 承認者 確認」及び「特許提案申請 承認者 変更」を推奨単語として提示する場合とで、推奨単語が所属する質問回答ペアの範囲に変わりは無い。すなわち、「特許提案申請 承認者」「特許提案申請 承認者 確認」及び「特許提案申請 承認者 変更」は、絞り込みの寄与又は価値が低いといえる。代わりに、絞り込み検索結果「8、9」である「申請変更 期限」を推奨単語として提示した方が、絞り込みの寄与が高い。
【0086】
そこで、第3実施形態に係る決定部114は、ある推奨単語候補に対して同一単語又は表記を部分的に含む推奨単語候補を削除する。まず、決定部114は、複数個の推奨単語候補の中から、同一の単語又は表記を含む2個以上の推奨単語候補を特定し、特定された2個以上の推奨単語候補を類似関係にあると認定する。そして決定部114は、類似関係にある2個以上の推奨単語候補のうちの1個を残して残りを削除する。何れの推奨単語候補を残すのかは任意の基準により決定されればよい。一例として、決定部114は、スコアが一番高い推奨単語候補を残し、他の推奨単語候補を削除するとよい。スコアが高い方が推奨単語としての価値が高いと考えられるためである。他の例として、決定部114は、所属する質問回答ペアの個数が最も多い推奨単語候補を残し、他の推奨単語候補を削除してもよい。
【0087】
図13の例でいえば、「特許提案申請」「特許提案申請 承認者」「特許提案申請 承認者 確認」及び「特許提案申請 承認者 変更」は、互いに「特許提案申請」という同一単語を含んでいるので、類似関係にある。そして所属する質問回答ペアの個数が最も多い「特許提案申請」を残し、他の「特許提案申請 承認者」「特許提案申請 承認者 確認」及び「特許提案申請 承認者 変更」が削除される。その結果、「特許提案申請」と「申請変更 期限」とが推奨単語に決定され表示される。
【0088】
図14は、第3実施形態に係る他の動作例を示す図である。図14は、スコアが上位よりも下位の推奨単語の方が絞り込み検索結果の該当件数が多い例である。図14に示すように、1位の推奨単語候補は「特許提案申請 承認者」であり、2位の推奨単語候補は「特許提案申請」となっている。決定部114は、スコアが上位よりも下位の推奨単語の方が絞り込み検索結果の該当件数が多い場合であっても、スコアが一番高い推奨単語候補を残し、他の推奨単語候補を削除するとよい。「特許提案申請 承認者」だけ残す場合、「特許提案申請」での絞り込みで得られるID番号「6」「7」の質問回答ペアを検索結果に含めることができないが、それ以外のID番号「1」乃至「5」については検索結果に含めることができる。結果として、図14に示すように、推奨単語として「特許提案申請 承認者」と「申請変更 期限」とが推奨単語に決定され表示される。
【0089】
図15は、第3実施形態に係る他の動作例を示す図である。図15は、図13及び図14のような単語列の単語要素の包含関係ではなく、推奨単語候補の表記文字列の包含関係の例である。図15のように抽出された推奨単語候補の表記が他のワードの表記に含まれることもある。この場合も、単語列の要素を含む場合の例と考え方は同様である。スコア1位の「特許提案申請」に「特許提案」「提案申請」は内包されるため、スコア22位及び3位の推奨単語候補による絞り込みで得られる検索結果の大部分が重なることになる。そのため、「特許提案」「提案申請」は価値が低いとみなすことができる。一方、「提案申請承認」は「特許提案申請」に含まれない部分があるため、「特許提案申請」とは異なる絞り込み結果をもたらす可能性がある。そのため、価値があると判断される。結果として、図15のように「特許提案申請」と「提案申請承認」とが推奨単語に決定され表示される。
【0090】
以上のように第3実施形態によれば、互いに類似関係にある推奨単語候補が推奨単語として提示されることを回避できる。絞り込みに対する寄与が略同一である単語が表示される可能性が低減し、制限される表示個数のなかで効率的に推奨単語を提示することが可能になる。
【0091】
(第4実施形態)
第4実施形態に係る決定部114は、複数個の検索結果文章にそれぞれ対応する複数のカテゴリの中から、ユーザが関心のあるカテゴリである関心カテゴリを推定し、関心カテゴリと問合せ文と検索結果文章と係り受け関係とに基づいて推奨単語を決定する。以下、第4実施形態について説明する。なお以下の説明において、第1実施形態と略同一の機能を有する構成要素については、同一符号を付し、必要な場合にのみ重複説明する。また、対話検索の処理手順や推奨単語の表示処理等の第1実施形態に共通する部分については説明を省略する。
【0092】
図16は、第4実施形態に係る文章データベース200に記憶される質問回答集のデータ構造の一例を示す図である。図16に示すように、第4実施形態に係る質問回答集は、質問文と、当該質問文に対する回答文と、当該質問回答ペアのカテゴリとの組合せである質問回答ペアの集積である。カテゴリは、質問回答ペアの内容を分類するために付与される属性情報である。カテゴリは、質問回答ペアのジャンルや質問区分を表す情報であり、質問回答ペアがどのような内容に関係するものかを大雑把に分類する。例えば、ID「2」の質問回答ペアは、質問文「勤務時間を変更したい」であり、回答文は「勤務時間管理画面の・・・」であり、カテゴリは「勤務承認」である。質問文と回答文とカテゴリとは、人手により入力されるのが通常であるが、コンピュータにより自動的に入力されてもよい。
【0093】
図17は、第4実施形態に係る動作例を示す図である。図17の左上の表に示すように、6個の推奨単語候補が特定され、推奨単語候補毎にスコアが算出されている。決定部114は、図16に示す質問回答集に基づいて、当該推奨単語候補が属する質問回答ペアのカテゴリを特定する。決定部114は、カテゴリに基づいて、表示すべき質問回答ペアのカテゴリと表示すべきでない質問回答ペアのカテゴリとを選定する。
【0094】
図17の例では、質問回答ペアが「特許提案」「勤務承認」「参観」の3つのカテゴリに分類されている。通常、ユーザは、ユーザの困りごとが分類されているどれか1つのカテゴリに属する質問回答ペアを探すことになる。そのため、ユーザが関心のあるカテゴリとは異なるカテゴリの推奨単語が表示されても無駄である。ここで、ユーザが関心のあるカテゴリは、検索結果文章に占める割合が高いカテゴリであると考えられる。そこで、図17の例のような推奨単語候補が得られたとき、まずユーザが質問しているカテゴリを推定する。図17は、質問回答ペアがもっとも多く検索されたカテゴリである「特許提案」を採用する例を示している。
【0095】
カテゴリの選定を行わないと、図17のように、「特許提案申請 承認者」「申請 期限」「参観者 追加」「勤務時間 変更」が推奨単語として表示されるが、ユーザが特許提案関連の質問回答ペアを探している場合、カテゴリが異なる「参観者 追加」「勤務時間 変更」は選ばれることは決してない。そこで決定部114は、推奨単語候補が所属する質問回答ペアのカテゴリの中から、ユーザが関心のあるカテゴリ(関心カテゴリ)を推定する。関心カテゴリの推定方法としては、検索結果文章の質問回答ペアがもっとも多く所属していたカテゴリを選択したり、質問回答ペアの上位候補の多くが所属していたカテゴリを選択するなどの方法がある。
【0096】
図17の例では、6件のQA検索結果のうち、4件がカテゴリ「特許提案」、1件がカテゴリ「勤務承認」、1件がカテゴリ「参観」となる。この結果からユーザはカテゴリ「特許提案」に関する質問回答ペアを探していた可能性が高いと考えられる。そこで、決定部114は、件数が1番多いカテゴリである「特許提案」を関心カテゴリであると推定する。決定部114は、関心カテゴリ「特許提案」に関連付けられた推奨単語候補を推奨単語として選定する。結果として、図17のように「特許提案申請 承認者」「申請 期限」「ファイル 添付」「共願者 追加」が推奨単語として選定され表示される。
【0097】
第4実施形態によれば、検索結果文章に複数種類のカテゴリの質問回答ペアが混在する場合でも、ユーザが問い合わせている可能性の高いカテゴリを推定し、そのカテゴリに関する推奨単語を表示することが可能になる。ユーザが探している可能性が高いカテゴリに絞った推奨単語だけを表示することで、推奨単語の表示を効率化することができる。
【0098】
(第5実施形態)
第5実施形態に係る決定部114は、複数個の検索結果文章各々を構成する単語と問合せ文を構成する単語列との一致度に基づいて当該複数個の検索結果文章の順位を決定し、決定された順位と問合せ文と検索結果文章と係り受け関係とに基づいて推奨単語を決定する。より詳細には、決定部114は、検索結果文章の順位に基づいて当該検索結果文章のスコアを算出し、問合せ文と検索結果文章と係り受け関係とに加え、算出されたスコアに基づいて推奨単語を決定する。これにより、正解の可能性が高いと期待される上位の検索結果文章に含まれる単語から優先して推奨単語を選定することで対話検索の効率を向上せることが可能になる。以下、第5実施形態について説明する。なお以下の説明において、第1実施形態と略同一の機能を有する構成要素については、同一符号を付し、必要な場合にのみ重複説明する。また、対話検索の処理手順や推奨単語の表示処理等の第1実施形態に共通する部分については説明を省略する。
【0099】
図18は、第5実施形態に係る動作例を示す図である。図18の事例では、問合せ文が「承認者がエラーになって申請できない」であり、検索ワードが「承認者」「エラー」「申請」であり、当該検索ワードに基づき8個の検索結果質問文「特許提案時に承認者の選択のエラーがでて先に進めない」「承認者を変更するとエラーがでます」「複数の承認者を追加したいのですがエラーが出て追加できない」「提案部門コードのエラーが表示された」「特許提案書の添付ファイルがエラーになる」「特許提案の提出ボタンを押すとエラーが表示されます」「共願者追加画面でエラーが表示される」「特許提案の期限を指定すると不正な日付というエラーの表示が出た」が取得されたものとする。
【0100】
検索結果文章が取得された場合、決定部114は、各検索結果質問文の、問合せ文に対する合致度合いに関する順位を決定する。順位の決定方法は種々様々であり特に限定されない。例えば、決定部114は、各検索結果質問文に含まれる検索ワードの個数を計数し、当該個数に基づいて順位を決定する。図18の各検索結果質問文の左端に付された数字は、決定部114により算出された順位を表す。
【0101】
検索ワードのうちの3語にマッチし質問回答ペアはないため、検索ワードのうちの2語にマッチした質問回答ペアが1位~3位に並び、4位以降は検索ワードのうちの1語にマッチした質問回答ペアとなる。この検索結果から生成される推奨単語は18の右図のようになる。ここで、推奨単語候補「エラー 表示」の出現数は4回であり、もっとも多く、推奨単語候補の中で1位である。出現数で推奨単語候補の順位を決める方針は多くの場合で採用されているが、図18の例では問題がある。検索ワードのうちの2語にマッチしている1位~3位の質問回答ペアに関する推奨単語より、検索ワードのうちの1語にだけマッチした4位以下の質問回答ペアに関する推奨単語「エラー 表示」が優先されるからである。
【0102】
ユーザが複数の検索ワードを指定したとき、多くの検索ワードを同時に含む質問回答ペアの方が、ユーザが探したい質問回答ペアの場合が多い。このような推奨単語の優先度付けを実現するために、質問回答ペアの順位別のスコア重み表を用意する。スコア重み表は、検索結果質問文の順位と重み値とを関連付けたテーブルである。重み値は、順位が高いほど大きい値に設定されるとよい。例えば、順位「1」に対して重み値「10」、順位「2」に対して重み値「8」、順位「3」に対して重み値「6」、順位「4」に対して重み値「4」、順位「5」に対して重み値「2」、順位「6」に対して重み値「1」のように設定されるとよい。スコア重み表は、文章データベース200や記憶装置12に記憶される。
【0103】
決定部114は、各推奨単語について、当該推奨単語が属する検索結果質問文の順位を特定し、特定された順位に対応する重み値をスコア重み表から特定し、順位と重み値との積算値に基づいてスコアを算出する。推奨単語の順位は図18の右図のようになる。出現数が4回の「エラー 表示」は所属する質問回答ペアの順位が4位、6位、7位及び8位なので、それぞれ2点、1点、1点及び1点となり合計で5点となる。一方、質問回答ペアの1位に含まれる推奨単語「承認者 選択」は10点、質問回答ペアの2位に含まれる推奨単語「承認者 変更」は8点となる。結果として図18のように、3個の推奨単語を表示する場合、「承認者 選択」「承認者 変更」「承認者 追加」が推奨単語に選定され表示される。
【0104】
以上のように第5実施形態により、上位の検索結果文章に含まれる推奨単語候補が推奨単語として選択され易くなる。これにより、ユーザが探している可能性が高い質問回答ペアに関連する推奨単語を優先して表示することが可能になり、ひいては、推奨単語の表示を効率化することができる。
【0105】
かくして、対話型の文章検索において検索結果の絞り込みに有用な推奨単語を選定することが可能になる。
【0106】
本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。
【符号の説明】
【0107】
1…文章検索システム、11…処理回路、12…記憶装置、13…入力機器、14…通信機器、15…表示機器、100…文章検索装置、111…受付部、112…検索部、113…解析部、114…決定部、115…表示制御部、116…統括制御部、200…文章データベース、300…クライアント端末。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19