(58)【調査した分野】(Int.Cl.,DB名)
【発明の概要】
【0004】
しかしながら、新しい知的財産権情報が抽出条件に合致しても(即ち、予め設定された単語を含んでいても、或いは、分類情報が一致しても)、その知的財産権情報が従来システムの利用者にとっての関連分野に属していない可能性がある。
【0005】
従来システムの利用者が抽出条件を細かく設定すれば(例えば、より多くの単語を抽出条件に追加すれば)、従来システムが関連分野に属さない知的財産権情報を抽出することを回避できる可能性がある。その反面、抽出条件を細かく設定し過ぎると、関連分野の知的財産権情報が抽出条件に合致しなくなる虞がある。換言すれば、抽出条件を適切に調整するための工数が過大となる虞がある。
【0006】
そこで、本発明の目的の一つは、新たな技術文書(例えば、公開特許公報及び国際公開公報並びに学術論文等の知的財産権情報)が取得されたとき、その技術文書と関連する技術分野の担当者に対してその技術文書に関する情報を提供することを簡易な運用操作によって実現できる文書情報提供装置を提供することである。
【0007】
上記目的を達成するための本発明に係る文書情報提供装置(以下、「本発明装置」とも称呼される。)は、文書取得部、文書記憶部、関連文書抽出部、及び、情報提供部を備えている。
前記文書取得部は、被分類技術文書を取得する。
前記文書記憶部は、それぞれに担当者が割り当てられた複数の参照技術文書に関する情報を記憶する。
【0008】
前記関連文書抽出部は、前記被分類技術文書が前記文書取得部によって取得されたとき、前記被分類技術文書を構成する語彙と類似する語彙によって構成される1つ又は複数の前記参照技術文書を関連文書として抽出する関連文書抽出処理を実行する。
前記情報提供部は、前記関連文書抽出部によって抽出された前記関連文書のそれぞれの前記担当者に対して前記被分類技術文書に関する情報を提供する。
【0009】
例えば、本発明装置を利用する法人は、自社の特許出願に係る明細書等を参照技術文書として本発明装置に登録し、且つ、特許出願のそれぞれに係る発明をした者を参照技術文書の担当者として登録しておくことができる。加えて、本発明装置は、他社(自社以外の者)が出願した特許出願に係る公開特許公報を被分類技術文書として文書取得部が取得するように本発明装置を設定しておくことができる。
【0010】
この場合、本発明装置は、他社の特許公報が新たに公開されたとき、その特許公報を構成する語彙に類似する語彙によって構成される自社の特許出願の担当者に対してその特許公報に関する情報を提供することができる。
【0011】
特許公報を含む技術文書は、その文書が属する技術分野に特有の専門用語を含んでいる可能性が高い。そのため、技術分野が互いに関連する2つの技術文書のそれぞれに含まれる単語(具体的には、名詞)の集合(即ち、語彙)は、互いに類似している場合が多い。そのため、本発明装置によって担当者に提供される他社の特許公報は、担当者が担当している技術分野に属している可能性が高い。
【0012】
換言すれば、参照技術文書を担当者と共に本発明装置に登録しておけば、被分類技術文書が取得されたとき、本発明装置は、その被分類技術文書と技術分野が関連する参照技術文書の担当者に対してその被分類技術文書に関する情報を提供することができる。この際、予め抽出条件を本発明装置に設定しておく必要はない。従って、本発明装置によれば、被分類技術文書と技術分野が関連する参照技術文書の担当者に対する被分類技術文書に関する情報提供を簡易な運用操作によって実現することができる。
【0013】
本発明装置の一態様において、
前記関連文書抽出部は、
(1)ある技術文書に含まれる単語のそれぞれの同技術文書における出現頻度に基づいて定まる「第1語彙分布」を前記被分類技術文書及び前記複数の参照技術文書のそれぞれに対して算出し、
(2)2つの技術文書のそれぞれの前記第1語彙分布が互いに類似しているほど小さい値になる「第1語彙分布距離」を前記被分類技術文書及び前記複数の参照技術文書のうちの任意の2つの技術文書の組合せに対して算出し、
(3)前記第1語彙分布距離が所定値よりも小さい前記技術文書の組合せに含まれる技術文書のそれぞれを集約することによって所定数の「近傍文書グループ」を生成し、
(4)前記被分類技術文書が含まれる前記近傍文書グループに含まれる前記参照技術文書を前記関連文書として抽出する、
ことによって関連文書抽出処理を実行するように構成されることが好適である。
【0014】
技術文書の属する技術分野に特有の専門用語は、その技術文書において繰り返し使用される可能性が高い。そのため、同一の近傍文書グループに含まれる技術文書のそれぞれは、技術分野が互いに関連している可能性が高い。従って、本態様によれば、被分類技術文書と技術分野が関連する参照技術文書を精度良く抽出することができる。
【0015】
本発明装置の他の態様において、
本発明装置は、
前記複数の参照技術文書のそれぞれを技術分野が互いに関連する技術文書の集合である複数の「参照技術文書グループ」に分類したうえで前記文書記憶部に記憶させる「参照技術文書分類部」を備え、
前記参照技術文書分類部は、
前記参照技術文書を前記文書記憶部に追加するとき、
前記参照技術文書グループのうち前記追加される参照技術文書と技術分野が最も密接に関連している前記参照技術文書の集合である同参照技術文書グループに同追加される参照技術文書が属すると判定する「参照技術文書追加処理」を実行し、
前記関連文書抽出部は、
前記参照技術文書グループのうち前記被分類技術文書と技術分野が最も密接に関連している前記参照技術文書の集合である同参照技術文書グループに含まれる同参照技術文書を前記関連文書として抽出することによって前記関連文書抽出処理を実行する、
ように構成されることが好適である。
【0016】
参照技術文書グループの構成は、参照技術文書追加処理の実行時に画定される。そのため、例えば、複数の被分類技術文書が取得された場合(即ち、関連文書抽出処理が複数回実行された場合)であっても、参照技術文書グループのそれぞれに含まれる参照技術文書の組合せ(即ち、参照技術文書グループの構成)は変化しない。従って、本態様によれば、参照技術文書グループの構成を変化させることなく複数の被分類技術文書に関する担当者への情報提供を行うことができる。
【0017】
例えば、本発明装置の利用開始に伴って本発明装置の運用者が文書記憶部に参照技術文書を登録するとき、参照技術文書グループを設定しておけば、その後、追加される参照技術文書は、既存の参照技術文書グループに何れかに属することになる。そのため、本態様によれば、参照技術文書グループのそれぞれの技術分野を固定したうえで参照技術文書の追加をすることができる。
【0018】
前述した本発明装置の態様は、
前記参照技術文書分類部が、
(1)ある技術文書に含まれる単語のそれぞれの同技術文書における出現頻度に基づいて定まる「第2語彙分布」を前記追加される参照技術文書及びそれ以外の前記参照技術文書のそれぞれに対して算出し、
(2)2つの技術文書のそれぞれの前記第2語彙分布が互いに類似しているほど小さい値になる「第2語彙分布距離」を前記追加される参照技術文書及び前記それ以外の参照技術文書のうちの任意の2つの技術文書の組合せに対して算出し、
(3)前記第2語彙分布距離が所定値よりも小さい前記技術文書の組合せに含まれる技術文書のそれぞれを集約することによって所定数の前記参照技術文書グループ生成し、
(4)前記生成された参照技術文書グループのうち前記追加される参照技術文書が含まれる同参照技術文書グループに同追加される参照技術文書が属すると判定する、
ことによって前記参照技術文書追加処理を実行するように構成され得る。
【0019】
本態様において、追加される参照技術文書の語彙分布と同様の語彙分布を有する参照技術文書グループにその参照技術文書が属することになる。そのため、追加される参照技術文書及び他の参照技術文書の集合を、技術分野が互いに関連する参照技術文書によって構成される複数の参照技術文書グループへ精度良く分割することができる。
【0020】
加えて、参照技術文書が追加される毎に参照技術文書グループが改めて生成される。従って、本態様によれば、多くの参照技術文書が追加される場合であっても参照技術文書グループが互いに技術分野が関連する参照技術文書によって構成される状態が維持される。
【0021】
或いは、前述した本発明装置の態様は、
前記関連文書抽出部が、
(1)前記参照技術文書グループに含まれる前記参照技術文書の数に対するその参照技術文書グループにおけるある単語を含んでいる同参照技術文書の数の比率である「第1単語含有率」を同参照技術文書グループ毎に且つ同単語毎に算出し、
(2)前記被分類技術文書が前記第1単語含有率のより高い単語をより多く含んでいるほど大きい値となり且つ同被分類技術文書が前記第1単語含有率のより低い単語をより少なく含んでいるほど大きい値となる「第1文書関連度」を前記参照技術文書グループのそれぞれに対して算出し、
(3)前記参照技術文書グループのうち前記第1文書関連度が最も大きい値となる同参照技術文書グループに含まれる前記参照技術文書を前記関連文書として抽出する、
ことによって前記関連文書抽出処理を実行するように構成され得る。
【0022】
第1文書関連度は、被分類技術文書が「ある参照技術文書グループに含まれる参照技術文書の多くが含んでいる単語」を含んでいれば大きな値となる。一方、第1文書関連度は、被分類技術文書が「その参照技術文書グループに含まれる参照技術文書の多くが含んでいない単語」を含んでいれば小さな値となる。加えて、第1文書関連度は、被分類技術文書が「その参照技術文書グループに含まれる参照技術文書の多くが含んでいない単語」を含んでいなければ大きな値となる。
【0023】
換言すれば、第1文書関連度は、被分類技術文書及び参照技術文書のそれぞれが「含んでいる単語」に加えて「含んでない単語」にも基づいて決定される。従って、本態様によれば、被分類技術文書と技術分野が関連する参照技術文書を含む参照技術文書グループを精度良く抽出することができる。
【0024】
加えて、前述した本発明装置の態様は、
前記参照技術文書分類部が、
(1)前記参照技術文書グループに含まれる前記参照技術文書の数に対するその参照技術文書グループにおけるある単語を含んでいる同参照技術文書の数の比率である「第2単語含有率」を同参照技術文書グループ毎に且つ同単語毎に算出し、
(2)前記追加される参照技術文書が前記第2単語含有率のより高い単語をより多く含んでいるほど大きい値となり且つ同追加される参照技術文書が前記第2単語含有率のより低い単語をより少なく含んでいるほど大きい値となる「第2文書関連度」を前記参照技術文書グループのそれぞれに対して算出し、
(3)前記参照技術文書グループのうち前記第2文書関連度が最も大きい値となる同参照技術文書グループに前記追加される参照技術文書が属すると判定する、
ことによって前記参照技術文書追加処理を実行するように構成され得る。
【0025】
第1文書関連度と同様に、第2文書関連度は、追加される参照技術文書及び他の参照技術文書のそれぞれが「含んでいる単語」に加えて「含んでない単語」にも基づいて決定される。そのため、本態様において、追加される参照技術文書と技術分野が関連する他の参照技術文書によって構成される参照技術文書グループを精度良く抽出することができる。その結果、本態様によれば、多くの参照技術文書が追加される場合であっても参照技術文書グループが互いに技術分野が関連する参照技術文書によって構成される状態が維持される。
【0026】
更に、前述した本発明装置の態様は、
前記参照技術文書分類部が、
(1)前記参照技術文書グループに含まれる前記参照技術文書のそれぞれの前記担当者の集合と、前記追加される参照技術文書の担当者の集合と、の両方に含まれる担当者の数が多いほど大きい値となる「担当者関連度」を前記参照技術文書グループのそれぞれに対して算出し、
(2)前記参照技術文書グループのうち前記担当者関連度が最も大きい値となる同参照技術文書グループに前記追加される参照技術文書が属すると判定する、
ことによって前記参照技術文書追加処理を実行するように構成され得る。
【0027】
一般に、担当者のそれぞれは、特定の技術分野に精通したうえで担当業務を遂行しているので、同一の担当者が関わった複数の参照技術文書は技術分野が互いに関連している可能性が高い。ある参照技術文書に対して複数の担当者が関わっていれば、「それら複数の担当者の集合」と構成員が類似する「複数の担当者の集合」が関わった他の参照技術文書は、その参照技術文書と技術分野が互いに関連している可能性が高い。
【0028】
従って、2つの参照技術文書に関する担当者関連度が大きいほど、それら2つの参照技術文書の技術分野が互いに関連していると考えられる。そのため、本態様において、追加される参照技術文書と技術分野が関連する他の参照技術文書によって構成される参照技術文書グループを精度良く抽出することができる。その結果、本態様によれば、多くの参照技術文書が追加される場合であっても参照技術文書グループが互いに技術分野が関連する参照技術文書によって構成される状態が維持される。
【発明を実施するための形態】
【0030】
以下、図面を参照しながら本発明の各実施形態に係る文書情報提供装置について説明する。
<第1実施形態>
本発明の第1実施形態に係る文書情報提供装置11(以下、「第1装置」とも称呼される。)の概略構成が
図1に示される。文書情報提供装置11は、汎用コンピュータであり、CPU21、RAM22、ハードディスクドライブ(HDD)23、ネットワークインタフェース24、及び、操作インタフェース25を含んでいる。
【0031】
CPU21は、所定のプログラムを逐次実行することによってデータの読み込み、数値演算、及び、演算結果の出力等を行う。RAM22は、データを一時的に記憶する。HDD23は、CPU21が実行するプログラム及びデータベース(DB)等を記憶する。
【0032】
ネットワークインタフェース24は、周知のネットワーク41(例えば、インターネット)を介して外部の文書公開サーバ42及び電子メールサーバ43と通信することができる。文書公開サーバ42は、新たな公開特許公報を随時公開し、その公報をネットワーク41を介して取得可能な状態に維持するWebサーバ(httpサーバ)である。例えば、文書公開サーバ42は、特許庁が公開している「公報発行サイト」及び民間企業が提供する特許情報サービスのWebサーバである。
【0033】
電子メールサーバ43は、文書情報提供装置11(具体的には、ネットワークインタフェース24)からの要求(例えば、SMTPリクエスト)に応じて所望の宛先(電子メールアドレス)に対して電子メールを送信することができる。
【0034】
操作インタフェース25は、文書情報提供装置11に接続された入力装置26及び出力装置27と通信することができる。入力装置26はキーボード及びマウスを含み、出力装置27はディスプレイ装置を含んでいる。加えて、操作インタフェース25は、USBポート(不図示)を備え、USBポートに接続されたUSBメモリからのデータの読み込み及びUSBメモリへのメモリの書き込みを実行することができる。文書情報提供装置11の運用者は、入力装置26を用いて文書情報提供装置11を操作し、操作結果を出力装置27を介して取得する。
【0035】
(データベース)
HDD23が記憶するDBには、参照技術文書DB31及び被分類技術文書DB32が含まれている。参照技術文書DB31には、特定の法人(以下、「自社」とも称呼される。)が出願した特許出願に関する情報(願書に添付された明細書等を含み、以下、「参照技術文書」とも称呼される。)が登録されている。参照技術文書DB31において、出願番号が参照技術文書の文書ID(識別子)として用いられる。
【0036】
参照技術文書DB31には、参照技術文書のそれぞれに対する一人又は複数の担当者に関する情報が登録されている。原則として、担当者は参照技術文書(即ち、特許出願に係る明細書等)に記載された発明の発明者及び同発明の成立過程に関わった補助者等である。担当者が異動していれば、後任者がその参照技術文書の担当者として参照技術文書DB31に登録されている。参照技術文書DB31に登録された担当者に関する情報には担当者のそれぞれの電子メールアドレスが含まれている。
【0037】
被分類技術文書DB32には、自社以外の者(以下、「他社」とも称呼される。)が出願した特許出願に係る公開特許公報(以下、「被分類技術文書」とも称呼される。)に関する情報が登録されている。被分類技術文書DB32において、出願番号が被分類技術文書の文書ID(識別子)として用いられる。
【0038】
(処理の概要)
CPU21(以下、単に「CPU」とも称呼される。)が実行する処理には参照技術文書追加処理、関連文書抽出処理、及び、被分類技術文書通知処理が含まれている。運用者が入力装置26を操作して新しい参照技術文書(以下、「新参照技術文書」とも称呼される。)を文書情報提供装置11に登録するとき、CPUは参照技術文書追加処理を実行し、その新参照技術文書の内容及び文書IDを参照技術文書DB31に追加する。
【0039】
新しい被分類技術文書(以下、「新被分類技術文書」とも称呼される。)が文書公開サーバ42にて公開されると、CPUは、関連文書抽出処理を実行し、周知の方法(例えば、httpリクエスト)により新被分類技術文書を取得(ダウンロード)する。更に、CPUは、関連文書抽出処理の実行時、新被分類技術文書と技術分野が関連している参照技術文書の集合を抽出する。次いで、CPUは、新被分類技術文書の内容及び文書ID、並びに、新被分類技術文書と技術分野が関連している参照技術文書の文書IDを被分類技術文書DB32に登録する。
【0040】
新被分類技術文書に関する情報が被分類技術文書DB32に登録されると、CPUは、被分類技術文書通知処理を実行し、新被分類技術文書と技術分野が関連する参照技術文書のそれぞれの担当者宛てに電子メールを送信し、新被分類技術文書が公開されたこと及び新被分類技術文書の内容を担当者に通知する。
【0041】
(参照技術文書追加処理)
参照技術文書追加処理の実行時、CPUは、新参照技術文書に対して周知の方法により形態素解析処理(所謂、テキストマイニング処理)を実行することによって新参照技術文書に含まれる単語(具体的には、名詞)と、単語のそれぞれの出現回数と、を単語毎に抽出する。文書に含まれる単語とその単語の出現回数との組合せの集合は「語彙分布」とも称呼される。
【0042】
参照技術文書DB31に登録されている参照技術文書のぞれぞれの語彙分布の例が、
図2の表に示される。
図2の表において、文書1から文書(N−1)までの文書は、参照技術文書DB31に登録される時点において既に参照技術文書DB31に登録されていた参照技術文書であり、文書Nは、新たに参照技術文書DB31に追加される新参照技術文書である。文書1から文書Nまでの参照技術文書のそれぞれには、単語1から単語MまでのM種類の単語のうちの一部(場合によっては、全部)の単語が含まれている。
【0043】
(関連文書抽出処理−単純化した例を用いた説明)
関連文書抽出処理の実行時、CPUは、新被分類技術文書に関する語彙分布を抽出する。算出された新被分類技術文書の語彙分布は、
図2に示される。更に、CPUは、新被分類技術文書及び参照技術文書DB31に登録されたN個の参照技術文書から構成される文書の集合を、技術分野が関連した文書を集約することによって所定値K個のグループに分類する。そのため、CPUは、この(N+1)個の文書の集合に含まれる任意の2つの文書の組合せに関して「2つ文書の技術分野が関連している程度を表す語彙分布距離D」をそれら2つの文書のそれぞれの語彙分布に基づいて算出する。語彙分布距離Dの値は、2つの文書の技術分野がより密接に関連しているほど小さくなる。
【0044】
語彙分布距離Dの算出方法について、単純化した例を参照しながら説明する。語彙分布を構成する単語が単語1(例えば、「触媒」)と単語2(例えば、「温度」)の2つだけであると仮定したときの文書毎の語彙分布の例が、
図3の分布図に示される。
【0045】
図3において、単語1の出現回数がx
1軸によって表され、単語2の出現回数がx
2軸によって表されている。x
1軸とx
2軸とは互いに直交する。
図3の分布図には、参照技術文書のそれぞれが白い丸(「○」)によって表され、1つの新被分類技術文書が黒い四角(「■」)によって表されている。新被分類技術文書を表す黒い四角は、点P0とも称呼される。
【0046】
ある2つの文書の組合せに関する語彙分布距離Dは、分布図上のそれらの文書のそれぞれに対応する2つの点(白い丸又は黒い四角)の間の距離として算出される。2つの点の間の距離が短ければ、語彙分布距離Dが小さくなる。具体的には、2つの文書の一方における単語1の出現回数と他方における単語1の出現回数との差が小さく、且つ、一方における単語2の出現回数と他方における単語2の出現回数との差が小さければ、語彙分布距離Dが小さくなる。換言すれば、2つの文書のそれぞれの語彙分布が類似していれば、語彙分布距離Dが小さくなる。語彙分布距離Dが小さければ、それに対応する2つの文書は技術分野が互いに関連していると考えられる。
【0047】
例えば、
図3の点P1によって表された参照技術文書は、単語1をx
11個を含み(即ち、x
1=x
11)、単語2をx
21個含んでいる(即ち、x
2=x
21)。この場合、点P1の座標は点P1(x
11,x
21)として表すことができる。同様に、
図3の点P2によって表された参照技術文書は、点P2(x
12,x
22)と表され、
図3の点P3によって表された参照技術文書は、点P3(x
13,x
23)と表される。
【0048】
図3の分布図における点P1と点P2との間の距離(即ち、語彙分布距離D)をD(1,2)と表せば、語彙分布距離D(1,2)は、下式(1)によって算出される。同様に、点P2と点P3との間の語彙分布距離D(2,3)は下式(2)によって算出される。
【数1】
【0049】
任意の2つの文書の組合せについて語彙分布距離Dが算出されると、語彙分布距離Dが第1閾値Dth1以下である文書(参照技術文書及び新被分類技術文書)で構成されたグループが生成される。例えば、語彙分布距離D(1,2)及び語彙分布距離D(2,3)は、共に第1閾値Dth1以下である。従って、点P1、点P2及び点P3のそれぞれによって表される文書は、同じグループ(便宜上、「グループ1」とも称呼される。)に含まれる。
【0050】
一方、点P3と点P4のそれぞれによって表された2つの文書の組合せに関する語彙分布距離D(3,4)は、第1閾値Dth1よりも大きい。従って、点P4によって表される文書はグループ1には含まれない。点P4によって表される文書が含まれるグループは、便宜上「グループ2」とも称呼される。
【0051】
本例において、文書のそれぞれは、5つのグループ(即ち、グループ1〜グループ5)に分割されている。
図3において、5つのグループのそれぞれに含まれる文書を表す点(白い丸又は黒い四角)は、閉曲線C1〜閉曲線C5のそれぞれによってそれぞれ囲まれている。新被分類技術文書を表す点P0は、グループ1に含まれる。そのため、グループ1に含まれる参照技術文書のそれぞれが、新被分類技術文書と技術分野が関連していることが判る。
【0052】
本例において、第1閾値Dth1は、生成されるグループの数が「5」となるように設定されていた。例えば、第1閾値Dth1よりも短い第2閾値Dth2(即ち、Dth1>Dth2)に基づいて文書をグルーピングすると、グループ4(閉曲線C4で囲まれた文書によって構成されるグループ)は、破線C4a及び破線C4bのそれぞれによって囲まれる2つのグループに分割される。
【0053】
即ち、語彙分布距離Dの閾値が小さくなるほど生成される文書グループの数が多くなる。換言すれば、語彙分布距離Dの閾値が小さくなるほど技術分野がより密接に関連した文書によって構成された文書グループが生成される。
【0054】
(関連文書抽出処理−実際の処理)
図3に示された例では、分布図が2次元の直交座標系によって示されていたが(即ち、参照技術文書及び新被分類技術文書のそれぞれには単語1及び単語2以外の単語が含まれていないと仮定していたが)、実際の文書には多数の単語が含まれる。従って、実際の語彙分布距離Dは、互いに直行する多数の軸を有する多次元直交座標系において各文書を表す点が語彙分布に応じてプロットされ、それらの点のうちの任意の2つの点の間の距離に基づいて算出される。
【0055】
参照技術文書及び新被分類技術文書がM種類の単語の一部(場合によっては、全部)によって構成されていれば、M次元の多次元直交座標系における点Pa(x
1a,x
2a,…,x
Ma)及び点Pb(x
1b,x
2b,…,x
Mb)の間の語彙分布距離D(Pa,Pb)は、下式(3)によって算出される。
【数2】
【0056】
任意の2つの文書の組合せに対して語彙分布距離Dが算出されると、語彙分布距離Dが距離閾値Dth以下である範囲に含まれる参照技術文書及び新被分類技術文書を集約することによって文書がグルーピングされる。加えて、生成されるグループの数が所定値K個となるように距離閾値Dthが調整される。K個の集合に分割された文書の集合のうち、新被分類技術文書が属する集合に含まれる参照技術文書のそれぞれ(便宜上、「関連文書」とも称呼される。)が、新被分類技術文書と技術分野が関連していることが判る。
【0057】
(被分類技術文書通知処理)
CPUは、関連文書抽出処理が完了すると、被分類技術文書通知処理を実行する。即ち、関連文書抽出処理により抽出された関連文書のそれぞれの担当者に対して電子メールを送信する。
【0058】
(具体的作動−参照技術文書追加処理)
次に、CPUの具体的作動について
図4〜
図6のフローチャートを参照しながら説明する。上述したように、文書情報提供装置11の運用者が操作インタフェース25を操作して新参照技術文書を登録するとき、CPUは参照技術文書追加処理を実行する。具体的には、CPUは、
図4のステップ400から処理を開始し、ステップ405に進む。
【0059】
ステップ405にてCPUは、操作インタフェース25のUSBポートに接続されたUSBメモリに保存された新参照技術文書(具体的には、特許出願の願書及び願書に添付された明細書等のHTMLファイル)を読み込み、その内容をRAM22に保存する。
【0060】
次いで、CPUは、ステップ410に進み、新参照技術文書から語彙分布を抽出する。更に、CPUは、ステップ415に進み、新参照技術文書の内容及び新参照技術文書の語彙分布等を参照技術文書DB31に登録する。その後、CPUは、ステップ495に進んで本ルーチンを終了する。
【0061】
(具体的作動−関連文書抽出処理)
一方、CPUは、
図5にフローチャートにより表された関連文書抽出処理を所定の時間が経過する毎に実行する。従って、適当なタイミングとなると、CPUは、
図5のステップ500から処理を開始し、ステップ505に進む。
【0062】
ステップ505にてCPUは、文書公開サーバ42上に新被分類技術文書が公開されているか否かを判定する。具体的には、CPUは、文書公開サーバ42上に、前回本ルーチンを実行した後に公開された被分類技術文書があるか否かを確認する。新被分類技術文書が公開されていれば、CPUは、ステップ505にて「Yes」と判定し、ステップ510に進み、新被分類技術文書を文書公開サーバ42から取得(ダウンロード)する。
【0063】
更に、CPUは、ステップ515に進み、取得した新被分類技術文書から語彙分布を抽出する。その後、CPUは、ステップ520に進み、新被分類技術文書及び参照技術文書のうち任意の2つの文書の組合せに対して上記式(3)に基づいて語彙分布距離Dを算出する。
【0064】
次いで、CPUは、ステップ525に進み、新被分類技術文書からの語彙分布距離Dが所定の参照距離Drよりも短い範囲に参照技術文書が存在しているか否かを判定する。参照距離Drは、語彙分布距離Dが参照距離Drより大きいと、その語彙分布距離Dに関連する2つの技術文書は技術内容が互いに関連していないと判断される値となるように設定されている。
【0065】
新被分類技術文書との間の語彙分布距離Dが参照距離Drよりも短い参照技術文書が存在していれば、CPUは、ステップ525にて「Yes」と判定してステップ530に進み、距離閾値Dthの値を参照距離Drに設定する。更に、CPUは、ステップ530に進み、語彙分布距離Dが距離閾値Dth以下である文書を集約することによって文書(参照技術文書及び新被分類技術文書)のグルーピングを行う。
【0066】
次いで、CPUは、ステップ540に進み、生成された文書グループの数が所定値K以下であるか否かを判定する。文書グループの数が所定値Kよりも大きければ、CPUは、ステップ540にて「No」と判定してステップ545に進み、距離閾値Dthの値を所定値Dcだけ小さくする。次いで、CPUは、ステップ535に進む。
【0067】
CPUは、生成された文書グループの数が所定値K以下となるまで、ステップ535乃至ステップ545の処理を繰り返し実行する。生成された文書グループの数が所定値K以下となれば、CPUは、ステップ540にて「Yes」と判定してステップ550に進み、新被分類技術文書と同じ文書グループに含まれていた参照技術文書が新被分類技術文書と技術分野が関連する文書(即ち、関連文書)であると判定する。更に、CPUは、ステップ555に進み、新被分類技術文書の内容及び関連文書の文書ID等を被分類技術文書DB32に登録する。
【0068】
次いで、CPUは、ステップ560に進み、文書公開サーバ42上に公開された新被分類技術文書を総て処理したか否かを判定する。未処理の新被分類技術文書が残っていれば、CPUは、ステップ560にて「No」と判定してステップ510に進む。
【0069】
一方、総ての新被分類技術文書に対して上述した処理が完了していれば、CPUは、ステップ560にて「Yes」と判定してステップ595に進んで、本ルーチンを終了する。
【0070】
加えて、新被分類技術文書との間の語彙分布距離Dが参照距離Drよりも短い参照技術文書が存在していなければ、CPUは、ステップ525にて「No」と判定してステップ565に進み、関連文書が存在しないと判定する。更に、CPUは、ステップ555に進み、新被分類技術文書の内容及び関連文書が存在しないこと等を被分類技術文書DB32に登録する。
【0071】
なお、文書公開サーバ42上に新被分類技術文書が公開されていなければ、CPUは、ステップ505にて「No」と判定してステップ595に直接進む。
【0072】
(具体的作動−被分類技術文書通知処理)
CPUは、上述した関連文書抽出処理が終了すると(即ち、
図5のステップ595に進んだ後)、被分類技術文書通知処理を実行する。具体的には、CPUは、
図6のステップ600から処理を開始し、ステップ605に進む。ステップ605にてCPUは、被分類技術文書DB32に登録された後、本ルーチンによって処理されていない被分類技術文書(未処理文書)が存在しているか否かを判定する。
【0073】
未処理文書が存在していれば、CPUは、ステップ605にて「Yes」と判定してステップ610に進み、その未処理文書に対して関連文書が登録されているか否かを判定する。関連文書が登録されていれば、CPUは、ステップ610にて「Yes」と判定してステップ615に進み、関連文書のそれぞれの担当者を参照技術文書DB31から抽出する。
【0074】
次いで、CPUは、ステップ620に進み、電子メールサーバ43に対して担当者への電子メールの送信をリクエストする。更に、CPUは、ステップ625に進み、総ての未処理文書に対して処理が完了したか否かを判定する。総ての未処理文書に対して処理が完了していれば、CPUは、ステップ625にて「Yes」と判定してステップ695に進み、本ルーチンを終了する。
【0075】
一方、未処理文書が残っていれば、CPUは、ステップ625にて「No」と判定してステップ610に進む。なお、未処理文書に対して関連文書が登録されていなければ、CPUは、ステップ610にて「No」と判定してステップ625に直接進む。加えて、本ルーチンの実行開始時に未処理文書が存在していなければ、CPUは、ステップ605にて「No」と判定してステップ695に直接進む。
【0076】
以上、説明したように、第1装置(文書情報配信装置11)は、
被分類技術文書を取得する文書取得部(ネットワークインタフェース24等)と、
それぞれに担当者が割り当てられた複数の参照技術文書に関する情報を記憶する文書記憶部(HDD23)と、
前記被分類技術文書が前記文書取得部によって取得されたとき、前記被分類技術文書を構成する語彙と類似する語彙によって構成される1つ又は複数の前記参照技術文書を関連文書として抽出する関連文書抽出処理を実行する関連文書抽出部(CPU21等)と、
前記関連文書抽出部によって抽出された前記関連文書のそれぞれの前記担当者に対して前記被分類技術文書に関する情報を提供する情報提供部(ネットワークインタフェース24等)と、
を備えている。
【0077】
加えて、前記関連文書抽出部は、
ある技術文書に含まれる単語のそれぞれの同技術文書における出現頻度に基づいて定まる第1語彙分布を前記被分類技術文書及び前記複数の参照技術文書のそれぞれに対して算出し(
図2、
図4のステップ410及び
図5のステップ515)、
2つの技術文書のそれぞれの前記第1語彙分布が互いに類似しているほど小さい値になる第1語彙分布距離(語彙分布距離D)を前記被分類技術文書及び前記複数の参照技術文書のうちの任意の2つの技術文書の組合せに対して算出し(
図5のステップ520)、
前記第1語彙分布距離が所定値(距離閾値Dth)よりも小さい前記技術文書の組合せに含まれる技術文書のそれぞれを集約することによって所定数(K)の近傍文書グループを生成し(
図5のステップ535乃至ステップ545)、
前記被分類技術文書が含まれる前記近傍文書グループに含まれる前記参照技術文書を前記関連文書として抽出する(
図5のステップ550)、
ことによって関連文書抽出処理を実行するように構成されている。
【0078】
第1装置によれば、文書公開サーバ42にて新たに被分類技術文書が公開されたとき、この被分類技術文書と技術分野が関連する参照技術文書の担当者は、被分類技術文書に関する情報を自動的に受信することができる。この場合、担当者及び運用者は、第1装置に抽出条件(例えば、単語検索に用いられる検索ワード、及び、公開特許公報の分類情報等)を予め登録しておく必要がない。そのため、第1装置によれば、簡易な運用操作によって担当者のそれぞれが担当している技術分野に関連する新たな被分類技術文書の情報配信を実現することができる。
【0079】
加えて、第1装置は関連文書を参照技術文書及び被分類技術文書の語彙分布に基づいて精度良く抽出するので、担当者が担当している技術分野に関連しない被分類技術文書に関する情報を配信することを回避することができる。
【0080】
<第2実施形態>
次に、本発明の第2実施形態に係る文書情報配信装置12(以下、「第2装置」とも称呼される。)について説明する。第1装置は、関連文書抽出処理の実行時、参照技術文書及び新被分類技術文書の集合を所定値K個のグループに分割し、新被分類技術文書と同じグループに属する参照技術文書のそれぞれが関連文書であると判定していた。これに対し、第2装置は、参照技術文書追加処理の実行時に参照技術文書をK個のグループに分割しておき、関連文書抽出処理の実行時に新被分類技術文書がどの参照技術文書のグループに属するかを判定することによって関連文書を抽出する。以下、この相違点を中心に説明する。
【0081】
(参照技術文書追加処理)
文書情報配信装置12のCPU21(以下、単に「CPU」とも称呼される。)は、参照技術文書追加処理の実行時、上述した語彙分布距離Dに基づく文書のグルーピングによって新参照技術文書を含む参照技術文書の集合をK個の「技術分野が互いに関連する参照技術文書の集合」(以下、「参照技術文書グループ」とも称呼される。)に分割する。
【0082】
更に、CPUは、参照技術文書グループのそれぞれについて、「参照技術文書グループに含まれる参照技術文書の数」に対する「その参照技術文書グループにおける、ある単語を含んでいる参照技術文書の数」の比率である単語含有率θを単語毎に算出する。即ち、単語含有率θは、参照技術文書グループ毎、且つ、単語毎に定まる値である。単語含有率θは、後述される関連文書抽出処理において参照される。
【0083】
CPUは、参照技術文書グループに含まれる参照技術文書のいずれにも含まれない単語については単語含有率θを算出しない。従って、単語含有率θは0より大きく且つ1以下の値である(即ち、0<θ≦1)。
【0084】
例えば、ある参照技術文書グループが10個の参照技術文書によって構成されていて、そのうちの4個の参照技術文書が単語1を含んでいた場合、その参照技術文書グループにおける単語1の単語含有率θは4/10=0.4となる。
【0085】
参照技術文書グループ及び単語含有率θの例が
図7に示される。
図7には、参照技術文書グループa及び参照技術文書グループbが示されている。グループaには文書a1から文書aNaまでのNa個の参照技術文書が含まれ、グループbには文書b1から文書bNbまでのNb個の参照技術文書が含まれている。
【0086】
グループaに含まれる参照技術文書のそれぞれは、単語a1から単語aMaまでのMa個の単語のうちの一部(場合によっては、全部)を含んでいる。グループbに含まれる参照技術文書のそれぞれは、単語b1から単語bMbまでのMb個の単語のうちの一部(場合によっては、全部)を含んでいる。
【0087】
図7において、単語のそれぞれが参照技術文書のそれぞれに含まれているか否かが「1」及び「0」の文字によって表されている。例えば、グループaに含まれる文書a1には単語a1が含まれるので
図7の表の該当する箇所には「1」が記載されている。一方、文書a1には単語a4が含まれていないので
図7の表の該当する箇所には「0」が記載されている。
図7の表において「1」及び「0」によって表される、ある文書が含んでいる単語の集合は、「語彙集合」とも称呼される。
【0088】
加えて、
図7の表にはグループaの単語含有率θa及びグループbの単語含有率θbが単語のそれぞれについて表されている。例えば、グループaに含まれる参照技術文書の数(Na個)に対する単語a1を含む参照技術文書の数の比率(即ち、単語含有率θa)は「0.15」である。
【0089】
(関連文書抽出処理−単純化した例を用いた説明)
CPUは、関連文書抽出処理の実行時、文書関連度Pを「参照技術文書グループの単語含有率θ」及び「新被分類技術文書の語彙集合」に基づいて参照技術文書グループのそれぞれに対して算出する。文書関連度Pは、新被分類技術文書の技術分野と、ある参照技術文書グループに含まれる参照技術文書の技術分野と、が関連している程度を表す値であり、より密接に関連しているほど大きくなる。従って、CPUは、文書関連度Pの値が最大となる参照技術文書グループに新被分類技術文書が属すると判定する。
【0090】
文書関連度Pの算出方法について、単純化した例を参照しながら説明する。ある参照技術文書グループを構成する参照技術文書に含まれる単語が4個であると仮定したときの、その参照技術文書グループに関する単語含有率θ及び新被分類技術文書の語彙集合の例が、
図8(A)及び(B)のそれぞれに示されている。
【0091】
図8(A)及び(B)には、新被分類技術文書が4個の単語のそれぞれを含むか否か(即ち、語彙集合)が「1」及び「0」の文字によって表されている。概して、
図8(A)の例において、新被分類技術文書は、単語含有率θが高い単語を含み、単語含有率θが低い単語を含んでいない。一方、
図8(B)の例において、新被分類技術文書は、単語含有率θが低い単語を含み、単語含有率θが高い単語を含んでいない。
【0092】
文書関連度Pは、4個の単語のそれぞれについて、「ある単語の単語含有率θ及びその単語が新被分類技術文書に含まれるか否かに基づいて定まる係数R」を求め、それら4個の係数Rのそれぞれを乗じることによって算出される。係数Rは、ある単語が新被分類技術文書に含まれていれば、その単語の単語含有率θと等しくなり、その単語が新被分類技術文書に含まれていなければ、1からその単語の単語含有率θを減じた値(即ち、(1−θ))となる。
【0093】
例えば、
図8(A)において、単語1の単語含有率θは「0.7」であり、新被分類技術文書は単語1を含んでいるので、単語1の係数R(1)は「0.7」である。一方、単語3の単語含有率θは「0.3」であり、新被分類技術文書は単語1を含んでいないので、単語3の係数R(3)は1−0.3=0.7である。文書関連度Pは、これら4個の係数を乗じることによって算出される(即ち、P=R(1)×R(2)×R(3)×R(4))。
【0094】
図8(A)の例によれば、文書関連度Pは「0.3136」となる。一方、
図8(B)の例によれば、文書関連度Pは「0.0036」となる。
図8(A)及び(B)の例から理解されるように、文書関連度Pは、単語含有率θの高い単語を新被分類技術文書が含んでいるほど高い値となり、且つ、単語含有率θの低い単語を新被分類技術文書が含んでいないほど高い値となる。
【0095】
(関連文書抽出処理−実際の処理)
図8(A)及び(B)の例では参照技術文書グループに4個の単語のみが含まれていたが、実際の参照技術文書グループには多数の単語が含まれる。参照技術文書グループにM個の単語が含まれていれば、文書関連度Pは下式(4)により算出される。
【数3】
ここで、θ(i)は参照技術文書グループに含まれるi番目の単語に関する
単語含有率θであり、
E(i)はi番目の単語が新被分類技術文書に含まれているか否かを表し、
i番目の単語が新被分類技術文書に含まれていれば「1」となり、
i番目の単語が新被分類技術文書に含まれていなければ「0」となる。
【0096】
CPUは、参照技術文書グループのそれぞれについて文書関連度Pを算出する。参照技術文書グループ毎の文書関連度Pの例が、
図9の表に示される。
図9から理解されるように、K個の参照技術文書グループのうちグループbの文書関連度Pが最も値が大きい。従って、新被分類技術文書は、グループbに含まれる参照技術文書のそれぞれと、他の参照技術文書グループに含まれる参照技術文書と比較して技術分野が関連している(即ち、グループbに含まれる参照技術文書が関連文書である)ことが判る。
【0097】
(具体的作動−参照技術文書追加処理)
次に、参照技術文書追加処理及び関連文書抽出処理の実行時におけるCPUの具体的作動について
図10及び
図11のフローチャートを参照しながら説明する。
図10のフローチャートに示されたステップであって
図4のフローチャートに示されたステップと同様の処理が実行されるステップには
図4と同一のステップ符号が付されている。加えて、
図10及び
図11のフローチャートに示されたステップであって
図5のフローチャートに示されたステップと同様の処理が実行されるステップには
図5と同一のステップ符号が付されている。なお、被分類技術文書通知処理については、第2装置の作動は第1装置の作動と同一であるので説明を省略する。
【0098】
CPUは、参照技術文書追加処理の実行時、
図10のステップ1000から処理を開始し、ステップ405及びステップ410の処理を経てステップ1015に進む。即ち、1015にてCPUは、新参照技術文書を含む参照技術文書のうち任意の2つの文書の組合せに対して上記式(3)に基づいて語彙分布距離Dを算出する。
【0099】
次いで、CPUは、ステップ530の処理を経てステップ1035に進み、語彙分布距離Dが距離閾値Dth以下である文書を集約することによって新参照技術文書を含む参照技術文書のグルーピングを行い、ステップ540に進む。
【0100】
CPUは、ステップ540にて「Yes」と判定したとき(即ち、新参照技術文書が属する参照技術文書グループが決定したとき)、ステップ1045に進み、新参照技術文書の語彙集合を抽出する。次いで、CPUは、ステップ1050に進み、参照技術文書グループのそれぞれに含まれる単語のそれぞれについて単語含有率θを算出する。
【0101】
更に、CPUは、ステップ1055に進み、新参照技術文書の内容、新参照技術文書が属する参照技術文書グループ及び単語含有率θ等を参照技術文書DB31に登録する。その後、CPUは、ステップ1095に進んで本ルーチンを終了する。なお、CPUは、ステップ540にて「No」と判定したとき、ステップ545の処理を経てステップ1035に進む。
【0102】
(具体的作動−関連文書抽出処理)
CPUは、関連文書抽出処理の実行時、
図11のステップ1100から処理を開始し、ステップ505に進む。CPUは、ステップ505にて「Yes」と判定したとき、ステップ510の処理を経てステップ1115に進み、新被分類技術文書の語彙集合を抽出する。次いで、CPUは、ステップ1120に進み、新被分類技術文書の参照技術文書グループのそれぞれに対する文書関連度Pを上記式(4)に基づいてそれぞれ算出する。
【0103】
更に、CPUは、ステップ1125に進み、算出された文書関連度Pの最大値が所定の関連度閾値Pth以上であるか否かを判定する。関連度閾値Pthは、ある参照技術文書グループに対する文書関連度Pが関連度閾値Pthより小さいと、新被分類技術文書が「その参照技術文書グループに含まれる参照技術文書」と技術分野が関連していないと判断される値となるように設定されている。
【0104】
算出された文書関連度Pの最大値が関連度閾値Pth以上であれば、CPUは、ステップ1125にて「Yes」と判定してステップ1130に進み、文書関連度Pの値が最大となる参照技術文書グループを抽出する。
【0105】
次いで、CPUは、ステップ550及びステップ555の処理を経てステップ560に進む。CPUは、ステップ560にて「Yes」と判定したとき、ステップ1195に進み、本ルーチンを終了する。
【0106】
一方、算出された文書関連度Pの最大値が関連度閾値Pthより小さければ、CPUは、ステップ1125にて「No」と判定し、ステップ565及びステップ555の処理を経てステップ560に進む。なお、CPUは、ステップ505にて「No」と判定したとき、ステップ1195に直接進む。加えて、CPUは、ステップ560にて「No」と判定したとき、ステップ510に進む。
【0107】
以上、説明したように、第2装置(文書情報配信装置12)は、
前記複数の参照技術文書のそれぞれを技術分野が互いに関連する技術文書の集合である複数の参照技術文書グループに分類したうえで前記文書記憶部に記憶させる参照技術文書分類部(CPU21等)を備え、
前記参照技術文書分類部は、
前記参照技術文書を前記文書記憶部に追加するとき、前記参照技術文書グループのうち前記追加される参照技術文書と技術分野が最も密接に関連している前記参照技術文書の集合である同参照技術文書グループに同追加される参照技術文書が属すると判定する参照技術文書追加処理(
図10)を実行し、
前記関連文書抽出部は、
前記参照技術文書グループのうち前記被分類技術文書と技術分野が最も密接に関連している前記参照技術文書の集合である同参照技術文書グループに含まれる同参照技術文書を前記関連文書として抽出することによって前記関連文書抽出処理(
図11)を実行する、
ように構成されている。
【0108】
加えて、第2装置は、
前記参照技術文書分類部が、
ある技術文書に含まれる単語のそれぞれの同技術文書における出現頻度に基づいて定まる第2語彙分布を前記追加される参照技術文書及びそれ以外の前記参照技術文書のそれぞれに対して算出し、
2つの技術文書のそれぞれの前記第2語彙分布が互いに類似しているほど小さい値になる第2語彙分布距離(語彙分布距離D)を前記追加される参照技術文書及び前記それ以外の参照技術文書のうちの任意の2つの技術文書の組合せに対して算出し(
図10のステップ1015)、
前記第2語彙分布距離が所定値よりも小さい前記技術文書の組合せに含まれる技術文書のそれぞれを集約することによって所定数の前記参照技術文書グループ生成し(
図10のステップ1035、ステップ540、ステップ545及びステップ1045)、
前記生成された参照技術文書グループのうち前記追加される参照技術文書が含まれる同参照技術文書グループに同追加される参照技術文書が属すると判定する(
図10のステップ1055)、
ことによって前記参照技術文書追加処理を実行するように構成されている。
【0109】
更に、第2装置は、
前記関連文書抽出部が、
前記参照技術文書グループに含まれる前記参照技術文書の数に対するその参照技術文書グループにおけるある単語を含んでいる同参照技術文書の数の比率である第1単語含有率(単語含有率θ)を同参照技術文書グループ毎に且つ同単語毎に算出し(
図10のステップ1055)、
前記被分類技術文書が前記第1単語含有率のより高い単語をより多く含んでいるほど大きい値となり且つ同被分類技術文書が前記第1単語含有率のより低い単語をより少なく含んでいるほど大きい値となる第1文書関連度(文書関連度P)を前記参照技術文書グループのそれぞれに対して算出し(
図11のステップ1120)、
前記参照技術文書グループのうち前記第1文書関連度が最も大きい値となる同参照技術文書グループに含まれる前記参照技術文書を前記関連文書として抽出する(
図11のステップ1130)、
ことによって前記関連文書抽出処理を実行するように構成されている。
【0110】
第2装置によれば、関連文書抽出処理が複数回実行されても参照技術文書グループのそれぞれに含まれる参照技術文書の組合せ(即ち、参照技術文書グループの構成)は変化しない。そのため、被分類技術文書の内容によって参照技術文書グループの構成が変化し、以て、被分類技術文書の情報提供を受ける担当者の組合せが変化してしまうことが回避される。具体的には、ある被分類技術文書に関する情報は担当者A及び担当者Bに配信され、別の被分類技術文書に関する情報は担当者A及び担当者Cに配信されるという事象の発生が回避される。
【0111】
加えて、参照技術文書グループの構成が語彙分布距離Dに基づいて決定されるので、第2装置によれば、技術分野が互いに関連する参照技術文書を精度良く集約したうえで参照技術文書グループを生成することができる。更に、参照技術文書追加処理を実行する度に参照技術文書グループが改めて生成されるので、第2装置によれば、多くの参照技術文書が追加されても参照技術文書グループが互いに技術分野が関連する参照技術文書によって構成される状態が維持される。
【0112】
加えて、第2装置は、関連文書抽出処理の実行時、文書関連度Pに基づいて関連文書を抽出する。換言すれば、第2装置は関連文書を、被分類技術文書及び参照技術文書のそれぞれが「含んでいる単語」に加えて「含んでない単語」にも基づいて決定する。そのため、第2装置によれば、被分類技術文書と技術分野が関連する参照技術文書を含む参照技術文書グループを精度良く抽出することができる。
【0113】
<第3実施形態>
次に、本発明の第3実施形態に係る文書情報配信装置13(以下、「第3装置」とも称呼される。)について説明する。第2装置は、参照技術文書追加処理の実行時、参照技術文書を語彙分布距離Dに基づいて所定数の参照技術文書グループに分割していた。即ち、第2装置は、新参照技術文書を登録する度に参照技術文書のグルーピングをやり直していた。これに対し、第3装置は、新参照技術文書を追加するとき、新参照技術文書が、予め分類された参照技術文書グループのうちのどのグループに属するか(即ち、どのグループと技術分野が関連するか)を文書関連度Pに基づいて判定する。以下、この相違点を中心に説明する。
【0114】
(参照技術文書登録処理)
文書情報配信装置13の運用者は、参照技術文書を技術分野に応じて予め所定値K個のグループ(参照技術文書グループ)に分類したうえで文書情報配信装置13に登録する。このとき、文書情報配信装置13のCPU21(以下、単に「CPU」とも称呼される。)は、参照技術文書登録処理を実行し、参照技術文書のそれぞれを参照技術文書グループ毎に参照技術文書DB31に登録する。
【0115】
(参照技術文書追加処理)
更に、運用者が参照技術文書を追加するとき、CPUは、参照技術文書追加処理を実行する。CPUは、参照技術文書追加処理の実行時、参照技術文書グループのそれぞれについて新参照技術文書との関連度を表す文書関連度Pを算出し、文書関連度Pが最大となる参照技術文書グループに新参照技術文書が属すると判定する。
【0116】
(具体的作動−参照技術文書登録処理)
次に、参照技術文書登録処理及び参照技術文書追加処理の実行時におけるCPUの具体的作動について
図12及び
図13のフローチャートを参照しながら説明する。
図13のフローチャートに示されたステップであって
図4、
図10及び
図11のフローチャートに示されたステップと同様の処理が実行されるステップには
図4、
図10及び
図11のそれぞれと同一のステップ符号が付されている。
【0117】
なお、関連文書抽出処理については第3装置の作動は第2装置の作動と同一であり、被分類技術文書通知処理については第3装置の作動は第1装置の作動と同一であるので、これらの処理の説明を省略する。
【0118】
CPUは、参照技術文書登録処理の実行時、
図12のステップ1200から処理を開始し、ステップ1205に進み、USBメモリに保存された予めグルーピングされた(即ち、参照技術文書グループに分類された)複数の参照技術文書を読み込み、その内容をRAM22に保存する。次いで、CPUは、ステップ1210に進み、読み込んだ参照技術文書のそれぞれの語彙集合を抽出する。
【0119】
更に、CPUは、ステップ1215に進み、参照技術文書グループのそれぞれに含まれる単語のそれぞれについて単語含有率θを算出する。その後、CPUは、ステップ1220に進み、参照技術文書のそれぞれの内容及び参照技術文書グループのそれぞれの単語含有率θ等を参照技術文書DB31に登録する。この際、CPUは、参照技術文書DB31に既に登録されていた参照技術文書に関する情報を参照技術文書DB31から削除する。次いで、CPUは、ステップ1295に進んで本ルーチンを終了する。
【0120】
(具体的作動−参照技術文書追加処理)
CPUは、参照技術文書追加処理の実行時、
図13のステップ1300から処理を開始し、ステップ405、ステップ1120、ステップ1130及びステップ1045の処理を経てステップ1350に進む。
【0121】
ステップ1350にてCPUは、ステップ1130にて抽出された参照技術文書グループ(即ち、新参照技術文書が属するグループ)に新参照技術文書を加えた参照技術文書の集合(即ち、更新された参照技術文書グループ)に含まれる単語のそれぞれの単語含有率θを算出する。次いで、CPUは、ステップ1355に進み、新参照技術文書に関する情報、及び、更新された参照技術文書グループに関する情報等を参照技術文書DB31に登録する。更に、CPUは、ステップ1395に進み、本ルーチンを終了する。
【0122】
以上、説明したように、第3装置は(文書情報配信装置13)は、
前記参照技術文書分類部が、
前記参照技術文書グループに含まれる前記参照技術文書の数に対するその参照技術文書グループにおけるある単語を含んでいる同参照技術文書の数の比率である第2単語含有率(単語含有率θ)を同参照技術文書グループ毎に且つ同単語毎に算出し(
図12のステップ1215)、
前記追加される参照技術文書が前記第2単語含有率のより高い単語をより多く含んでいるほど大きい値となり且つ同追加される参照技術文書が前記第2単語含有率のより低い単語をより少なく含んでいるほど大きい値となる第2文書関連度(文書関連度P)を前記参照技術文書グループのそれぞれに対して算出し(
図13のステップ1120)、
前記参照技術文書グループのうち前記第2文書関連度が最も大きい値となる同参照技術文書グループに前記追加される参照技術文書が属すると判定する(
図13のステップ1130)、
ことによって前記参照技術文書追加処理を実行するように構成されている。
【0123】
第3装置によれば、参照技術文書グループのそれぞれに含まれる参照技術文書の組合せ(即ち、参照技術文書グループの構成)が文書関連度Pに基づいて決定される。換言すれば、参照技術文書グループの構成は、参照技術文書のそれぞれが「含んでいる単語」に加えて「含んでない単語」にも基づいて決定される。従って、第3装置によれば、多くの参照技術文書が追加される場合であっても参照技術文書グループが互いに技術分野が関連する参照技術文書によって構成される状態が維持される。
【0124】
<第3実施形態の変形例>
次に、本発明の第3実施形態の変形例に係る文書情報配信装置(以下、「本変形装置」とも称呼される。)ついて説明する。第3装置は、参照技術文書登録処理によって予め分類された複数の参照技術文書を参照技術文書DB31に登録し、更に、参照技術文書追加処理によって新参照技術文書を参照技術文書DB31に追加する際に新参照技術文書がどの参照技術文書グループに属するかを判定していた。これに対し、本変形例に係る文書情報配信装置は、参照技術文書追加処理を実行しない。
【0125】
そのため、新参照技術文書を登録するとき(即ち、参照技術文書DB31に参照技術文書を追加するとき)、本変形装置の運用者は、改めて参照技術文書登録処理を実行する。換言すれば、運用者は、新参照技術文書を本変形装置に登録するとき、新参照技術文書がどの参照技術文書グループに属するか決定しておく必要がある。
【0126】
<第4実施形態>
次に、本発明の第4実施形態に係る文書情報配信装置14(以下、「第4装置」とも称呼される。)について説明する。第3装置は、予め分類された参照技術文書グループの集合に新参照技術文書を更に追加するとき、文書関連度Pに基づいて新参照技術文書がどの参照技術文書グループに属するかを決定していた。これに対し、第4装置は、予め分類された参照技術文書グループの集合に新参照技術文書を更に追加するとき、参照技術文書のそれぞれの担当者に応じて定まる担当者関連度Qに基づいて新参照技術文書がどの参照技術文書グループに属するかを決定する。従って、以下、この相違点を中心に説明する。
【0127】
(参照技術文書追加処理)
文書情報配信装置14のCPU21(以下、単に「CPU」とも称呼される。)は、参照技術文書追加処理の実行時、担当者関連度Qを参照技術文書のそれぞれに対して算出する。担当者関連度Qは、新参照技術文書の担当者の集合と、既に参照技術文書DB31に登録されている参照技術文書(他の参照技術文書)のそれぞれの担当者の集合と、が類似している程度を表す値である。
【0128】
具体的には、担当者関連度Qの値は、新参照技術文書の担当者の集合、及び、他の参照技術文書の担当者の集合の積集合(即ち、論理積)に含まれる担当者の人数に等しい。従って、担当者関連度Qの値は、これら2つの担当者の集合が互いに類似しているほど且つそれらの集合に含まれる担当者の数が大きくなるほど大きくなる。2つの参照技術文書に関する担当者関連度Qが大きいほど、それら2つの参照技術文書の技術分野が互いに関連していると考えられる。
【0129】
CPUは、参照技術文書追加処理の実行時、新参照技術文書と他の参照技術文書のそれぞれとの組合せに対して担当者関連度Qをそれぞれ算出する。算出された担当者関連度Qの例が
図14に示される。
図14には、既に参照技術文書DB31に登録されている参照技術文書1から参照技術文書NまでのN個の参照技術文書、及び、新参照技術文書のそれぞれの担当者が「1」及び「0」の文字によって表されている。
【0130】
例えば、参照技術文書1の担当者には担当者1が含まれているので
図14の該当する箇所には「1」が記載されている。一方、参照技術文書1の担当者には担当者4が含まれていないので
図14の該当する箇所には「0」が記載されている。ある参照技術文書の担当者が含んでいる個々の担当者の集合は、「担当者集合」とも称呼される。
【0131】
加えて、
図14の表には参照技術文書のそれぞれが属する参照技術文書グループ(グループa、グループb、…、グループKのK個のグループのいずれか)、及び、参照技術文書のそれぞれに対応する担当者関連度Qの値が表されている。
【0132】
担当者関連度Qの値が大きい順に参照技術文書を並べ替えて得られる表の例が
図15に示される。CPUは、担当者関連度Qが大きい順に所定値L個(本例において、6個)の参照技術文書(担当者類似文書)を抽出し、参照技術文書グループのうちもっとも多くの担当者類似文書が含まれる参照技術文書グループを新参照技術文書が属するグループであると判定する。
【0133】
本例においては、6個の関連参照技術文書のうち、グループaに含まれる参照技術文書が3個あり、グループbに含まれる参照技術文書が2個あり、そして、グループcに含まれる参照技術文書が1個ある。グループaに含まれる関連文書が他のグループに含まれる参照技術文書と比較して最も多いので、CPUは、新参照技術文書は、グループaに含まれると判定する。
【0134】
(具体的作動−参照技術文書登録処理)
次に、参照技術文書登録処理及び参照技術文書追加処理の実行時におけるCPUの具体的作動について
図16及び
図17のフローチャートを参照しながら説明する。
図16及び
図17のフローチャートに示されたステップであって
図4、
図10、
図12及び
図13のフローチャートに示されたステップと同様の処理が実行されるステップには
図4、
図10、
図12及び
図13のそれぞれと同一のステップ符号が付されている。
【0135】
なお、関連文書抽出処理については第4装置の作動は第2装置の作動と同一であり、被分類技術文書通知処理については第4装置の作動は第1装置の作動と同一であるので、これらの処理の説明を省略する。
【0136】
CPUは、参照技術文書登録処理の実行時、
図16のステップ1600から処理を開始し、ステップ1205乃至ステップ1215の処理を経てステップ1620に進む。ステップ1620にてCPUは、参照技術文書のそれぞれの担当者集合を抽出する。
【0137】
次いで、CPUは、ステップ1625に進み、参照技術文書のそれぞれの内容、参照技術文書グループのそれぞれの単語含有率θ及び参照技術文書のそれぞれの担当者集合等を参照技術文書DB31に登録する。この際、参照技術文書DB31に既に登録されていた参照技術文書に関する情報は参照技術文書DB31から削除する。次いで、CPUは、ステップ1695に進んで本ルーチンを終了する。
【0138】
(具体的作動−参照技術文書追加処理)
CPUは、参照技術文書追加処理の実行時、
図17のステップ1700から処理を開始し、ステップ405の処理を経てステップ1710に進み、読み込んだ新参照技術文書から担当者集合を抽出する。
【0139】
次いで、CPUは、ステップ1715に進み、新参照技術文書と、既に参照技術文書DB31に登録されていた参照技術文書のそれぞれと、の間の担当者関連度Qをそれぞれ算出する。更に、CPUは、ステップ1720に進み、担当者関連度Qが大きい上位L個の参照技術文書(即ち、担当者類似文書)を抽出する。
【0140】
次いで、CPUは、ステップ1725に進み、L個の担当者類似文書のそれぞれが属する参照技術文書グループのうち最も多くの関連参照技術文書が含まれる参照技術文書グループを抽出し、新参照技術文書がその参照技術文書グループに属すると判定する。更に、CPUは、ステップ1045、ステップ1350及びステップ1355の処理を経てステップ1795に進み、本ルーチンを終了する。
【0141】
以上、説明したように、第4装置(文書情報提供装置14)は、
前記参照技術文書分類部が、
前記参照技術文書グループに含まれる前記参照技術文書のそれぞれの前記担当者の集合と、前記追加される参照技術文書の担当者の集合と、の両方に含まれる担当者の数が多いほど大きい値となる担当者関連度(Q)を前記参照技術文書グループのそれぞれに対して算出し(
図16のステップ1715)、
前記参照技術文書グループのうち前記担当者関連度が最も大きい値となる同参照技術文書グループに前記追加される参照技術文書が属すると判定する(
図16のステップ1720)、
ことによって前記参照技術文書追加処理を実行するように構成されている。
【0142】
第4装置によれば、参照技術文書グループのそれぞれに含まれる参照技術文書の組合せ(即ち、参照技術文書グループの構成)が担当者関連度Qに基づいて決定される。そのため、「同一の担当者が関わった技術分野が互いに関連している複数の参照技術文書」は、同一の参照技術文書グループに含まれる可能性が高い。従って、第4装置によれば、多くの参照技術文書が追加される場合であっても参照技術文書グループが互いに技術分野が関連する参照技術文書によって構成される状態が維持される。
【0143】
上述した第1装置から第4装置までのそれぞれの参照技術文書の分類方法及び被分類技術文書の分類方法を対比した表が
図18に示される。
【0144】
以上、本発明に係る文書情報提供装置の実施形態について説明したが、本発明は上記実施形態に限定されるものではなく、本発明の目的を逸脱しない限りにおいて種々の変更が可能である。例えば、各実施形態における参照技術文書は自社の特許出願(願書に添付された明細書等)であり、被分類技術文書は他社の特許出願(公開特許公報)であった。しかし、参照技術文書及び被分類技術文書は、特許出願以外の技術文書であってもよい。
【0145】
例えば、参照技術文書及び被分類技術文書は、技術論文であっても良い。或いは、参照技術文書及び被分類技術文書に実用新案登録出願が含まれていても良い。更に、参照技術文書及び被分類技術文書は、ネットワーク41を介してアクセスすることができるWebサーバにて公開されるニュース原稿であっても良い。加えて、参照技術文書及び被分類技術文書は、これらの文書(即ち、特許出願、実用新案登録出願、学術論文、及び、ニュース原稿)の組合せであっても良い。
【0146】
加えて、第1実施形態及び第2実施形態において、語彙分布はある技術文書における、ある単語の出現回数に基づいて算出されていた。しかし、語彙分布は、技術文書の長さ(テキスト長)に対する単語の出現回数の比率に基づいて算出されても良い
【0147】
加えて、各実施形態において、語彙分布及び語彙集合は、ある技術文書に出現する単語毎に算出されていた。しかし、語彙分布及び/又は語彙集合は、技術文書に出現する単語を所定の同義語辞書に基づいて集約した上で算出されても良い。例えば、「電動機」、「モータ」及び「モーター」が同義語として扱われ、その結果、ある技術文書に「モータ」又は「モーター」が含まれているとき、語彙分布及び/又は語彙集合の算出においては、これらの単語は「電動機」であると扱われても良い。
【0148】
加えて、第1実施形態において、語彙分布距離Dが参照距離Drよりも短い範囲に参照技術文書が存在していなければ、第1装置は、関連文書が存在しないと判定していた。しかし、この処理は割愛されても良い。同様に、第2実施形態において、文書関連度Pが関連度閾値Pth以上とならなければ、第2装置は、関連文書が存在しないと判定していた。しかし、この処理は割愛されても良い。
【0149】
加えて、各実施形態において、参照技術文書のそれぞれには担当者が割り当てられていた。しかし、担当者の替わりに自社の担当部署が参照技術文書のそれぞれに割り当てられていても良い。例えば、参照技術文書(即ち、特許出願に係る明細書等)に記載された発明の発明者が所属する部署が、参照技術文書に割り当てられていても良い。この場合、第4装置は、各参照技術文書の担当部署に基づいて担当者関連度Qを算出しても良い。
他社の新しい技術文書(他社文書)が公開されたとき、他社文書と技術分野が関連する自社の技術文書(自社文書)を自動的に抽出し、その自社文書の担当者に他社文書の情報を提供するためには、予め抽出条件を適切に設定する必要があり、抽出条件の適切な設定のための運用工数が増大する虞がある。
他社文書に含まれる単語の集合(即ち、語彙)と類似する語彙によって構成される自社文書を他社文書と技術分野が関連する文書として抽出することによって予め抽出条件を設定すること無く、その自社文書の担当者に対して他社文書の情報を配信することを実現する。