(58)【調査した分野】(Int.Cl.,DB名)
検索式に応じて検索された複数の文書データを示す第一文書情報と、前記文書データに付与された当該文書データの1つ以上の技術的特徴を示す第一特徴情報と、当該文書データがユーザにとって所望の文献であるか否かを示す該当情報とを対応付けて記憶する記憶部と、
前記検索式に応じて新たに検索され、1つ以上の技術的特徴を示す第二特徴情報が付与された他の文書データを示す第二文書情報を取得する取得部と、
前記第二特徴情報と前記第一特徴情報との一致度に基づいて、前記複数の文書データから所定数の文書データを抽出する抽出部と、
前記抽出部が抽出した前記所定数の文書データ各々に対応付けられた前記該当情報に基づいて、前記他の文書データが、前記ユーザにとって所望の文献であるか否かを判断する判断部と、
前記判断部の判断結果を出力する出力部とを備える文書分類装置。
前記判断部は、前記抽出部が抽出した文献に対応付けられている該当情報に対して、前記一致度に応じた重み付けを行い、重み付けを行った後の該当情報に基づいて、前記他の文書データが、前記ユーザにとって所望の文献であるか否かを判断する
ことを特徴とする請求項1又は2に記載の文書分類装置。
前記判断部は、前記第一特徴情報が対応付けられている文書データであって前記該当情報がユーザが所望していない文献であることを示す文書データの、当該第一特徴情報が対応付けられている文書データ全体に対する割合を示す非該当率が、第一閾値を超える第一特徴情報と一致する第二特徴情報を有する他の文書データをユーザが所望していない文献であると判断する
ことを特徴とする請求項1〜3のいずれか1項に記載の文書分類装置。
前記判断部は、前記第一特徴情報が対応付けられている文書データであって前記該当情報がユーザが所望している文献であることを示す文書データの、当該第一特徴情報が対応付けられている文書データ全体に対する割合を示す該当率が、第二閾値を超える第一特徴情報と一致する第二特徴情報を有する他の文書データをユーザが所望している文献であると判断する
ことを特徴とする請求項4に記載の文書分類装置。
検索式に応じて検索された複数の文書データを示す第一文書情報と、前記文書データに付与された当該文書データの1つ以上の技術的特徴を示す第一特徴情報と、当該文書データがユーザにとって所望の文献であるか否かを示す該当情報とを対応付けて記憶する記憶ステップと、
前記検索式に応じて新たに検索され、1つ以上の技術的特徴を示す第二特徴情報が付与された他の文書データを示す第二文書情報を取得する取得ステップと、
前記第二特徴情報と前記第一特徴情報との一致度に基づいて、前記複数の文書データから所定数の文書データを抽出する抽出ステップと、
前記抽出ステップにおいて抽出した前記所定数の文書データ各々に対応付けられた前記該当情報に基づいて、前記他の文書データが、前記ユーザにとって所望の文献であるか否かを判断する判断ステップと、
前記判断ステップにおける判断結果を出力する出力ステップとを含む文書分類方法。
【発明を実施するための形態】
【0021】
以下、本発明の一実施態様に係る文書分類装置について、図面を参照しながら詳細に説明する。
【0022】
<実施の形態>
<構成>
図1は、文書分類装置の構成例を示すブロック図である。
図1に示すように、記憶部130と、取得部110と、抽出部121と、判断部122と、出力部140とを備える。
【0023】
記憶部130は、検索式に応じて検索された複数の文書データを示す第一文書情報と、文書データに付与された当該文書データの1つ以上の技術的特徴を示す第一特徴情報と、当該文書データがユーザにとって所望の文献であるか否かを示す該当情報とを対応付けて記憶している。記憶部130は、例えば、HDD(Hard Disc Drive)、SSD(Solid State Drive)、フラッシュメモリなどにより実現できるが、これに限定されるものではない。ここで第一文書情報は、第一文書情報の文書そのものを示すデータであってもよいし、第一文書情報を示す識別情報であってもよい。ここで、第一特徴情報は、文書データ各々の技術的特徴を示すものであって、例えば、IPC、CPC、ECLA、ICO、USC、FI、Fタームなどが挙げられるが、これらに限定されるものではない。また、該当情報とは、検索を行ったユーザが検索により得られた文献を目視することによって検索の結果得られた文献各々がユーザにとって所望の文献であるか否かを示す情報であればよく、例えば、「該当する」、「ノイズ」であるといった情報や、「どちらでもない」、「不明である」というような内容を示すような情報であってもよい。なお、該当情報は、文書分類装置が付与するものであってもよい。各第一文書情報には、上述の通り、技術的特徴を示す第一特徴情報として、少なくとも1つの技術的特徴が対応付けられる。
【0024】
取得部110は、検索式に応じて新たに検索され、1つ以上の技術的特徴を示す第二特徴情報が付与された他の文書データを示す第二文書情報を取得する。取得部121は、例えば、有線又は無線による通信により第二文書情報を取得することとしてもよいし、あるいは、記憶部130に予め記憶されていた他の文書データを取得するものであってもよいし、文書分類装置に他の文書データを記憶した他の記憶媒体が接続されて当該他の記憶媒体から他の文書データを取得することとしてもよい。他の記憶媒体とは、例えば、フラッシュメモリなどの可搬型の記憶媒体である。また、第二文書情報は、第二文書情報の文書その物を示すデータであってもよいし、第二文書情報を示す識別情報であってもよい。また、第二特徴情報は、他の文書データの技術的特徴を示すものであって、例えば、IPC、CPC、ECLA、ICO、USC、FI、Fタームなどが挙げられるが、これらに限定されるものではない。ここで、取得部110が取得する他の文書データは、1つでも複数でもどちらでもよい。
【0025】
抽出部121は、第二特徴情報と第一特徴情報との一致度に基づいて、複数の文書データから所定数の文書データを抽出する。抽出部121は、例えば、記憶部130に記憶されている抽出プログラムを実行するプロセッサにより実現することができる。例えば、抽出部121は、複数の文書データの中から第二特徴情報と第一特徴情報との一致度が高い文書データを抽出することとしてもよいし、一致度が一定以上の文書データを抽出することとしてもよい。
【0026】
判断部122は、抽出部121が抽出した所定数の文書データ各々に対応付けられた該当情報に基づいて、他の文書データが、ユーザにとって所望の文献であるか否かを判断する。判断部122は、例えば、記憶部130に記憶されている判断プログラムを実行するプロセッサにより実現することができる。例えば、判断部122は、抽出部121が抽出した文書データに対応付けられた該当情報が該当を示すものが多い場合に、他の文書データも、ユーザが所望する文献に該当すると判断することができる。なお、「ユーザにとって所望の文献であるか」という条件は、「所定の観点に合致する文献であるか」といった条件や「所定の条件に合致する文献であるか」というような条件であってもよい。
【0027】
出力部140は、判断部122の判断結果を出力する。出力部140は、判断部122による判断結果を外部に出力できればよく、例えば、文書分類装置100が出力装置としてのモニターやスピーカを備えて、それらのモニターに画像情報として判断結果を出力する、あるいは、音声情報として判断結果を出力することとしてもよい。また、出力部140は、例えば、文書分類装置100に外部の装置が接続されて、無線又は有線により、外部の装置に判断結果を示す情報を送信することにより出力することとしてもよい。
【0028】
以下、文書分類装置100について更に詳細に説明する。
【0029】
図2は、文書分類装置100の詳細な構成例を示すブロック図である。
図2に示すように、文書分類装置100は、取得部110と、制御部120と、記憶部130と、出力部140とから構成される。文書分類装置100は、新たな文書データが入力された場合に、当該新たな文書データが、ユーザの所望する文献に該当するノイズであるか否かを判定する機能を有するコンピュータシステムである。
【0030】
取得部110は、文書分類装置100が分類する新たな他の文書データとしての特許文献を示す情報を取得する機能を有する。当該特許文献を示す情報は、特許文献を示す情報であればよく、特許文献を示す識別情報あるいは文書そのものであってもよい。当該特許文献を示す情報には、当該特許文献の技術的情報を示す第二特徴情報としての特許分類を示す情報が付与されている。取得部110は、一例として、外部の装置(図示せず)から、未分類の他の文書データを取得する通信インターフェースである。
【0031】
制御部120は、記憶部130に記憶されている各種プログラムを実行することで、文書分類装置100の各部を制御する機能を有するプロセッサである。制御部120は、抽出部121と、判断部122としての機能を有する。制御部120は、検索式に応じて検索された文献として、ユーザにとって所望の文献であるか否かを判定するために、各文献に付与されているIPCが「ノイズ」となるか「該当」するかを判断するためのIPC該当情報を事前情報として生成する機能を有する。また、制御部120は、抽出部121や判断部122の機能により、新たに検索式により検索されたノイズか該当かの分類が付与されていない特許文献が、ユーザの所望する文献であるか否かを判断する機能も有する。
【0032】
抽出部121は、過去の分類済みの文献リストである過去文献リストの中から、新たな文献がノイズであるか否かを判定するために用いる文献を抽出する。抽出部121は、新たな文献とのIPCの一致度が高い順にソートされた過去文献リストの上位から所定数の文献を抽出する。
【0033】
判断部122は、抽出部121が抽出した文献に付与されている該当情報としての分類(「ノイズ」か「該当」するか)に基づいて、新たな文献がユーザにとって所望の文献であるか否か、即ち、「ノイズ」であるか「該当」するかを判断する。判断部122は、抽出部121が抽出した文献のうち、過半数を占める分類を、新たな文献の分類とする。
【0034】
制御部120による新たな文献が、ユーザの所望する文献であるか否かを判断する際の処理やIPC該当情報を生成する際の処理の詳細については、後述する。
【0035】
記憶部130は、文書分類装置100が動作する上で必要とする各種のデータやプログラムを記憶する機能を有する記録媒体である。記憶部130は、例えば、HDD、SSD、フラッシュメモリ等により実現されるが、これらに限定されるものではない。記憶部130は、例えば、各IPCがノイズなのか該当するのかの事前情報を制御部120が生成するためのプログラムや、新たな文献が入力されたときに当該新たな文献がノイズなのか該当するのかを制御部120が判断するためのプログラムを記憶している。また、記憶部130は、過去の特許文献のリストであって、各文献がユーザの所望の文献に該当するか否かを示す該当情報が対応付けられた過去文献リスト300と、取得部110が取得するものであって、新たな文献のリストである新文献リスト350と、制御部120が生成した事前情報であるIPC該当情報500を記憶している。また、新たな文献がノイズか該当するかを判定する際に生成する一致度表400も記憶する。
【0036】
出力部140は、制御部120の新たな文献についての判断結果に関する情報を外部の装置に対して出力する機能を有する通信インターフェースである。ここでは、例えば、
図3(a)に示すような態様(少なくとも新たな文献の公報番号と分類とが対応付けられた態様)で、分類が付与された新文献リストを出力することとする。
【0037】
以上が、文書分別装置100の構成の説明である。
【0038】
<データ>
ここから、文書分類装置100において用いられる各種データについて説明する。
【0039】
図3(a)は、記憶部130に記憶されている分類済みの文書データに関する過去文献リスト300の構成例を示すデータ概念図である。過去文献リスト300は、過去に所定の検索式で検索された文献に関する情報であって、各文献がユーザにとって所望の文献であるかいなかを示す情報を含む。
図3(a)に示すように、過去文献リスト300は、検索式に応じて検索された複数の文書データを示す第文書情報としての公報番号301と、対応する文書データである特許文献が検索の結果としてユーザが所望する内容が記載された文献であるか否かを示す該当情報に相当する情報である分類302と、当該文書データ各々に付与された1以上の技術的特徴を示す第一特徴情報に相当するIPC分類303とが対応付けられた情報である。
【0040】
公報番号301は、検索式に応じて検索された文書データであって、分類済みの文書データである特許文献を一意に特定するための情報である。ここでは、分類の対象となる特許文献の公報番号を用いているが、これは、公報番号に限るものではなく、当該文献を一意に特定できる識別情報であれば、公報番号以外を用いることとしてもよい。
【0041】
分類302は、対応する特許文献が、ユーザにとって所望の文献であるか否かを示す該当情報と呼ぶべき情報であり、ここでは、対応する特許文献がユーザにとって所望の文献である場合には、「該当」で示し、所望の文献でない場合には、「ノイズ」の2値で示している。
【0042】
IPC分類303は、対応する特許文献に付与されているIPCを示す情報である。当該IPC分類303は、対応する特許文献の1つ以上の技術的特徴を示す情報であり、国際的に統一されて用いられている特許文献の技術内容による分類を示す情報である。
【0043】
図3(b)は、文書分類装置100の取得部110が取得する新たな文書データの一例を示す新文献リスト350の構成例を示すデータ概念図である。新文献リスト350に記載される各特許文献が分類の対象となる新たな文書データの一覧である。新文献リスト350は、検索により新たに検索される他の文書データを示す情報に相当する公報番号351と、1つ以上の技術的特徴を示す第二特徴情報に相当するIPC分類352とが対応付けられた情報である。
【0044】
公報番号351は、文書データを一意に特定するための情報である。ここでは、分類の対象となる特許文献の公報番号を用いているが、これは、公報番号に限るものではなく、当該文献を一意に特定できる識別情報であれば、公報番号以外を用いることとしてもよい。
【0045】
IPC分類352は、対応する特許文献に付与されているIPCを示す情報である。当該IPC分類352は、対応する特許文献の1つ以上の技術的特徴を示す情報であり、国際的に統一されて用いられている特許文献の技術内容による分類を示す情報である。
【0046】
図4は、新文献リスト300に含まれる一文献と、過去文献リスト350に含まれる各文献との技術分類の一致度を対応付けて、その一致度の高いものから降順に並べ替えた状態の一致度表400の構成例を示すデータ概念図である。一致度表400は、文書分類装置100が新たな文書データが、「ノイズ」か「該当」かを判断する過程で生成する情報である。
【0047】
公報番号401は、分類済みの文書データである特許文献を一意に特定するための情報である。ここでは、分類の対象となる特許文献の公報番号を用いているが、これは、公報番号に限るものではなく、当該文献を一意に特定できる識別情報であれば、公報番号以外を用いることとしてもよい。
【0048】
分類402は、対応する特許文献が、ユーザにとって所望の文献であるか否かを示す該当情報と呼ぶべき情報であり、ここでは、対応する特許文献がユーザにとって所望の文献である場合には、「該当」で示し、所望の文献でない場合には、「ノイズ」の2値で示している。
【0049】
IPC分類403は、対応する特許文献に付与されているIPCを示す情報である。当該IPC分類403は、対応する特許文献の1つ以上の技術的特徴を示す情報であり、国際的に統一されて用いられている特許文献の技術内容による分類を示す情報である。
【0050】
一致度404は、新文献リスト350に含まれる一つの新文献について、当該新文献に付与されているIPC分類352と、過去文献リスト300に含まれる各文献に対応付けられているIPC分類303との一致度を示す情報である。
【0051】
一致度表400は、新文献リスト350に含まれる各文献毎に生成される。そして、各文献について各々がユーザの所望する文献かそうでないかを、対応する一致度表400を用いて、判断部122が判断する。
【0052】
図5は、IPC分類ごとに、ノイズとなるか、該当になるかの確率を示すIPC該当情報500の構成例を示すデータ概念図である。
図5に示すようにIPC該当情報500は、IPC分類501と、公報件数502と、ノイズ件数503と、ノイズ率504と、ノイズ判定505と、とが対応付けられた情報である。
【0053】
IPC分類501は、特許文献の技術的特徴を示す情報であり、国際的に統一されて用いられている特許文献の技術内容による分類を示す情報である。IPC分類501は、過去文献リスト300に含まれる過去文献に付与されているIPCを抽出したものである。
【0054】
公報件数502は、過去文献リスト300において、対応するIPC分類501が付与されている文献の総数を示す情報である。
【0055】
ノイズ件数503は、対応するIPC分類501が付与されている過去文献のうち、ユーザが「ノイズ」であると判断した文献の総数を示す情報である。
【0056】
ノイズ率504は、対応するIPC分類501が文書データに付与されている場合に、ユーザにとって所望の文献ではない確率を示唆する情報であって、対応するノイズ件数503を、対応する公報件数502で除した値を示している。
【0057】
ノイズ判定505は、対応するIPC分類501が付与されている場合にノイズとなるか該当するかを判定するための値である。文書分類装置100は、ノイズ判定が「100」となっていれば「ノイズ」、即ちユーザにとって所望でない文書であると判定することができる。また、文書分類装置100は、ノイズ判定が「0」となっていれば「該当」、即ちユーザにとって所望の文書であると判定することができる。本実施の形態においては、ノイズ率504が95以上であるIPC分類はノイズ判定505を100とし、ノイズ率504が10以下であるIPC分類はノイズ判定505を0としている。なお、ここで95や10の閾値は、文書分類装置100が定めた値であり、適宜その設定を変更できることとしてもよい。当該設定を変更する場合には、文書分類装置100に接続された入力装置等を用いて変更することができる。
【0058】
IPC該当情報500は、特定のIPC分類について、高確率でノイズあるいは該当となり得る文書を、文書分類装置100が特定するのに用いることができる。即ち、例えば、文書分類装置100は、ノイズ判定が100となっているIPC分類が付与されている文書は、ユーザにとって所望でない文献として特定することができる。逆に、ノイズ判定が0となっているIPC分類が付与されている文書は、ユーザにとって所望の文献であると特定することもできる。なお、
図5に示す各値は一例である。
【0059】
<動作>
ここから、文書分類装置100による歪み量の算出に係る動作を説明する。
図6から
図7にかけて示すフローチャートは、文書分類装置100が新たな文書の分類を行う前の事前準備のための処理を示すフローチャートである。当該処理は、文書分類装置100の制御部120が実行する処理である。本処理は、
図5に示す該当確率情報500を生成するための処理である。以下、詳細に説明する。
【0060】
(ステップS601)
ステップS601において、文書分類装置100の制御部120は、処理に用いる変数iを、1に設定する。当該変数iは、過去文献リスト300に含まれる各文献について、処理対象の文献を定めるための変数である。変数iを1に設定した後に、ステップS602の処理に移行する。
【0061】
(ステップS602)
ステップS602において、制御部120は、過去文献リスト300に含まれる全ての文献について、処理を行ったか否かを判定する。当該判定は、変数iの数が、過去文献リスト300の総数に一致するか否かによって判定できる。当該判定において、全ての文献について処理を行っていない場合には(NO)、ステップS603の処理に移行し、全ての文献について処理を終了している場合には(YES)、ステップS609の処理に移行する。
【0062】
(ステップS603)
ステップS603において、制御部120は、過去文献リスト300のi行目の公報の分類が「ノイズ」であるか否かを、過去文献リスト300の対応する分類302を参照して判定する。i行目の公報の分類が「ノイズ」である場合には(YES)、ステップS604の処理に移行し、「ノイズ」でない、即ち、「該当」となっている場合には(NO)、ステップS605の処理に移行する。
【0063】
(ステップS604)
ステップS604において、制御部120は、カウント設定値Cを1に設定して、ステップS606の処理に移行する。
【0064】
(ステップS605)
ステップS605において、制御部120は、カウント設定値Cを0に設定して、ステップS607に移行する。
【0065】
(ステップS606)
ステップS606において、過去文献リスト300のi番目の文献に対応するIPC分類303に示される各IPCのノイズカウントに、ステップS604又はステップS605において算出されたカウント設定値Cを足す。ここでノイズカウントは、各IPCがそれぞれノイズであるか否かを判断するための指標となる値である。その後に、ステップS607に移行する。
【0066】
(ステップS607)
ステップS607において、制御部120は、過去文献リスト300のi番目の文献に対応するIPC分類に示される各IPC各々についての総数を示す総カウント値に1を足す。その後に、ステップS608に移行する。
【0067】
(ステップS608)
ステップS608において、制御部120は、変数iに1を足した値を次のiの値として、ステップS602の処理に戻る。
【0068】
(ステップS609)
ステップS609において、制御部120は、閾値Tを、過去文献リスト300に記載されている文献の総数である総文献数の2.5%に設定して、ステップS610の処理に移行する。なお、ここで、閾値Tは、各IPCごとに設定される。
【0069】
(ステップS610)
ステップS610において、制御部120は、ステップS609において算出した閾値Tが50を超えるか否かを判定する。閾値Tが50を超えている場合には(YES)、ステップS611の処理に移行し、超えていない場合には(NO)、閾値をそのままの値にして、
図7のステップS701の処理に移行する。
【0070】
(ステップS611)
ステップS611において、制御部120は、閾値Tを50に設定しなおして、
図7のステップS701の処理に移行する。
【0071】
(ステップS701)
図7に示すステップS701において、制御部120は、変数jを1に設定し、ステップS702の処理に移行する。変数jは、各IPCについての処理対象となるIPCを特定するための変数である。
【0072】
(ステップS702)
ステップS702において、制御部120は、変数jが処理対象のIPCの総数に1を足した数と同じであるか否かを判定する。変数jが処理対象のIPCの総数に1を足した数と同数である場合には(YES)、処理を終了し、同数でない場合には(ステップS703)の処理に移行する。
【0073】
(ステップS703)
ステップS703において、制御部120は、各IPCについて、総件数が閾値T未満であるか否かを判定する。総件数が閾値T未満である場合には(YES)、ステップS709に移行し、閾値T未満でない場合には(NO)、ステップS704の処理に移行する。
【0074】
(ステップS704)
ステップS704において、制御部120は、各IPCのノイズ率を、各IPCのノイズカウント値を、当該IPCの総カウント値で除した値として算出する。ノイズカウント値は、
図6のステップS602からS608の処理を繰り返すことで、ステップS606の処理により算出される値である。また、IPCの総カウント値は、ステップS602からS608の処理を繰り返すことで、ステップS607の処理により算出される値である。ノイズ率を算出した後には、ステップS705の処理に移行する。
【0075】
(ステップS705)
ステップS705において、制御部120は、各IPCについて各々のノイズ率が10%未満であるか否かを判定する。10%未満である場合には(YES)、ステップS706に移行し、10%未満でない場合、即ち、10%以上である場合には(NO)、ステップS708の処理に移行する。
【0076】
(ステップS706)
ステップS706において、制御部120は、IPCノイズ率が10%未満であったIPCのノイズ判定を0%に設定する。その後に、ステップS709の処理に移行する。
【0077】
(ステップS707)
ステップS707において、制御部120は、IPCノイズ率が10%未満ではなかったIPC各々について、ノイズ率が95%以上であるか否かを判定する。ノイズ率が95%以上であった場合には(YES)、ステップS709に移行し、ノイズ率が95%以上でなかった場合には(NO)、ノイズ率は、ステップS704で算出した値として、ステップS709の処理に移行する。
【0078】
(ステップS708)
ステップS708において、制御部120は、IPCノイズ率が95%以上であったIPCのノイズ判定を100%に設定する。その後にステップS709の処理に移行する。
【0079】
(ステップS709)
ステップS709において、制御部120は、jに1加算した値を新たなjとし、ステップS702の処理に戻る。
【0080】
以上の処理を実行することにより、制御部120は、各IPCに対してノイズ率が算出され、
図5に示すIPC該当情報500を生成し、記憶部130に記憶する。
【0081】
次に、実際に新たな文書データ(公報)を入力された場合に、その公報が「ノイズ」であるか、「該当する」かを文書分類装置100が判断する際の動作について説明する。
図8〜
図10にかけて示すフローチャートが当該処理に該当する。本処理は、取得部110が新たな文献の集合である新文献リスト350を入手した後に、抽出部121及び判断部122が実行する処理となる。以下、詳細に説明する。
【0082】
(ステップS801)
ステップS801において、判断部122は、未判別の文献を区別するための変数lを1に設定する。その後に、ステップS802の処理に移行する。
【0083】
(ステップS802)
ステップS802において、判断部122は、未判別の文献が残っているか否かを判定する。当該判定は、新文献リスト350に含まれる文献数と、変数lが一致するか否かによって行う。未判別の文献が残っている場合には(YES)、ステップS803の処理に移行し、残っていない場合には(NO)、処理を終了する。
【0084】
(ステップS803)
ステップS803において、判断部122は、l番目の公報のIPCを抽出する。ここでは、新文献リスト350のIPC分類352から抽出する。抽出したIPCは個別に管理する。IPCを抽出した後に、ステップS804の処理に移行する。
【0085】
(ステップS804)
ステップS804において、判断部122は、処理を行っていないIPCを識別するために用いる変数mを1に設定する。ここで変数mの最大値は、ステップS803において抽出したIPCの合計数に相当する。その後に、ステップS805の処理に移行する。
【0086】
(ステップS805)
ステップS805において、判断部122は、最後のIPCについての判定であるか、即ち、mがmの総数に1を足した数になっているか否かを判定する。mがIPCの総数に1を足した数になっている場合には(YES)、ステップS806に移行し、なっていない場合には(NO)、ステップS812の処理に移行する。
【0087】
(ステップS806)
ステップS806において、判断部122は、検索式IPCとの一致IPC数カウントがmになっているか否かを判定する。なっている場合には(YES)、ステップS807に移行し、なっていない場合には(NO)、
図9のステップS901の処理に移行する。
【0088】
(ステップS807)
ステップS807において、判断部122は、対象のIPCのノイズ判定を0%とし、ステップS811の処理に移行する。
【0089】
(ステップS808)
ステップS808において、判断部122は、ノイズ判定が0であるか否かを判定する。ノイズ判定が0である場合には(YES)、ステップS809の処理に移行し、0ではない場合には(NO)、ステップS810の処理に移行する。なお。ここでは、ノイズ判定が0であるか否かに基づいて判定しているが、これは、ノイズ判定が100であるか否かに基づいて判定してもよく、ノイズ判定が100である場合にステップS810の処理に移行し、100でない場合にステップS809の処理に移行することになる。
【0090】
(ステップS809)
ステップS809において、判断部122は、Pl、即ち、l番目の文献が「該当」、即ち、ユーザが所望する文献であると判断し、l番目の文献に対応付けて記憶する。その後に、ステップS811の処理に移行する。
【0091】
(ステップS810)
ステップS810において、判断部122は、Pl、即ち、l番目の文献が「ノイズ」、即ち、ユーザが所望する文献ではないと判断し、l番目の文献に対応付けて記憶する。その後に、ステップS811の処理に移行する。
【0092】
(ステップS811)
ステップS811において、判断部122は、変数lに1加算した値を新たな変数lとし、ステップS802の処理に戻る。
【0093】
(ステップS812)
ステップS812において、判断部122は、処理対象のIPCのノイズ率が、IPC該当情報500において0%若しくは100%に設定されているか否かを判定する。ノイズ率が0%若しくは100%に設定されている場合には(YES)、ステップS813に移行し、設定されていない場合には(NO)、ステップS814の処理に移行する。
【0094】
(ステップS813)
ステップS813において、判断部122は、新たな文献のノイズ判定を対象IPCのノイズ判定値(即ち、0%若しくは100%のいずれか)に設定して、ステップS808の処理に移行する。当該処理は、新たな文献が、IPC該当情報500において、ノイズ100%となるIPC分類または該当100%となるIPC分類を有する場合に、IPC該当情報500で示される分類をそのまま新たな文献に適用するものである。
【0095】
(ステップS814)
ステップS814において、判断部122は、処理対象のIPCが検索式として使用したIPCと一致するか否かを判定する。一致する場合には(YES)、ステップS815に移行し、一致しない場合には(NO)、ステップS816の処理に移行する。
【0096】
(ステップS815)
ステップS815において、判断部122は、検索式IPCと一致するIPC数カウントを1加算する。その後に、ステップS816の処理に移行する。
【0097】
(ステップS816)
ステップS816において、判断部122は、変数mに1加算した値を新たなmとし、ステップS805の処理に戻る。
【0098】
(ステップS901)
ステップS901において、判断部122は、変数kを1に設定する。変数kは、処理対象となる過去文献リスト300中の過去文献を識別するための用いる変数である。変数kを1に設定した後に、ステップS902の処理に移行する。
【0099】
(ステップS902)
ステップS902において、判断部122は、処理対象の文献が、過去文献リスト300の過去文献リストの総数になっているか否かを、変数kが過去文献リスト300に含まれる過去文献の総数に1足した値に一致するか否かによって判定する。処理対象の文献が、過去文献リスト300に含まれる過去文献の最後の文献になっている場合には(YES)、
図10のステップS1001に移行し、なっていない場合には(NO)、ステップS903の処理に移行する。
【0100】
(ステップS903)
ステップS903において、判断部122は、過去文献リスト300のk番目の公報のIPCを抽出する。即ち、過去文献リスト300のk行目のIPC分類303から、各IPCを抽出する。その後に、ステップS904の処理に移行する。
【0101】
(ステップS904)
ステップS904において、新文献リスト350のh番目の公報の各IPC(h)を、新文献リスト350のIPC分類352から抽出する。その後に、ステップS905の処理に移行する。
【0102】
(ステップS905)
ステップS905において、判断部122は、変数nを1に設定する。変数nは、処理対象の新文献に付与されているIPCのうちの処理対象となっているIPCを区別するための変数である。変数nを1に設定した後に、ステップS906の処理に移行する。
【0103】
(ステップS906)
ステップS906において、判断部122は、nがラストになっているか、即ち、新文献に付与されている全てのIPCについて処理を行ったか否かを判定する。行っている場合には(YES)、ステップS906に移行し、行っていない場合には(NO)、ステップS907の処理に移行する。
【0104】
(ステップS907)
ステップS907において、判断部122は、IPC(h)nが、検索式のIPCと一致するか否かを判定する。一致する場合には(YES)、ステップS908に移行し、一致しない場合には(NO)、ステップS909の処理に移行する。
【0105】
(ステップS908)
ステップS908において、判断部122は、対象IPCカウントを1減算し、ステップS911の処理に移行する。
【0106】
(ステップS909)
ステップS909において、判断部122は、IPC(h)nがIPC(k)に一致するか否かを判定する。即ち、新文献リスト350のh番目の新文献に付与されているIPCのうち、n番目のIPCが、過去文献リスト300のk番目の過去文献に付与されているIPCのいずれかと一致するか否かを判定する。一致する場合には、ステップS910に移行し(YES)、一致しない場合には(NO)、ステップS911の処理に移行する。
【0107】
(ステップS910)
ステップS910において、判断部122は、IPC一致数カウントを1加算し、その後に、ステップS911の処理に移行する。
【0108】
(ステップS911)
ステップS911において、判断部122は、kに1加算した値を新たなkとし、ステップS902の処理に戻る。
【0109】
(ステップS912)
ステップS912において、判断部122は、新文献リスト350のh番目の新文献のIPCと、過去文献リスト300のk番目の過去文献に付与されているIPCとの一致率を、それまでにカウントしたIPC一致率カウントを、対象IPCカウント数で除することで、算出する。その後に、ステップS913の処理に移行する。
【0110】
(ステップS913)
ステップS913において、判断部122は、変数kに1加算した値を新たなkとし、ステップS902の処理に戻る。
【0111】
(ステップS1001)
ステップS1001において、判断部122は、新文献リスト300の新文献に付与されているIPCと、過去文献リスト350の過去文献各々に付与されているIPCとの各文献毎の一致率を降順で並べ替える。その後に、ステップS1002の処理に移行する。
【0112】
(ステップS1002)
ステップS1002において、抽出部121は、変数qを1に設定する。変数qは、IPCの一致度の高いものから、過去文献を抽出するため個数を特定するための変数である。変数qを1に設定した後に、ステップS1003の処理に移行する。
【0113】
(ステップS1003)
ステップS1003において、抽出部121は、qが8になっているか否かを判定する。qが8になっている場合には(YES)、ステップS1004に移行し、なっていない場合には(NO)、ステップS1009の処理に移行する。
【0114】
(ステップS1004)
ステップS1004において、判断部122は、対象の新たに検索された特許文献が、ユーザにとって所望の文献であるか否かを判断するための指標tを、ノイズカウントを比較公報数カウントで除することで算出する。ノイズカウントは、ステップS1011において算出される数であって、特許分類の一致度の高かった文献の上位から所定数抽出した過去文献の中で、ノイズである文献の個数を示す。比較公報数カウントは、ステップS1012においてカウントされる数であって、qの最大数に一致する。即ち、比較公報数カウントは、抽出する公報数のことを意味する。tを算出すると、ステップS1005の処理に移行する。
【0115】
(ステップS1005)
ステップS1005において、判断部122は、ステップS1004で算出したtが所定の閾値αを超えるか否かを判定する。tが閾値αを超えている場合には(YES)、ステップS1006に移行し、超えていない場合には(NO)、ステップS1007の処理に移行する。
【0116】
(ステップS1006)
ステップS1006において、判断部122は、対応する新たな公報が、ユーザの所望の文献に該当することを示す情報を付与する(該当すると分類する)。その後に、ステップS1008の処理に移行する。
【0117】
(ステップS1007)
ステップS1007において、判断部122は、対応する新たな公報が、ユーザの所望の文献ではないものとして、ノイズであることを示す情報を付与する(ノイズであると分類する)。その後に、ステップS1008の処理に移行する。
【0118】
(ステップS1008)
ステップS1008において、判断部122は、変数lに1加算した値を新たなlとし、
図8のステップS802の処理に移行する。
【0119】
(ステップS1009)
ステップS1009において、判断部122は、処理対象の文献数が、過去文献リスト300の総数に1足した値に達したか否かを判定する。当該判定は、過去文献リスト300に、q個の文献が含まれていない場合のための処置である。処理対象の文献の数が過去文献リスト300の総数に1足した値に達していた場合には(YES)、ステップS1004に移行し、達していなかった場合には(NO)、ステップS1010の処理に移行する。
【0120】
(ステップS1010)
ステップS1010において、判断部122は、過去文献リストのq番目の公報の分類302が「ノイズ」であるか否かを判定する。ノイズであると判定した場合には(YES)、ステップS1011に移行し、ノイズでないと判定した場合には(NO)、ステップS1012の処理に移行する。
【0121】
(ステップS1011)
ステップS1011において、判断部122は、ノイズカウントを1加算し、ステップS1012の処理に移行する。
【0122】
(ステップS1012)
ステップS1012において、判断部122は、比較公報数カウントを1加算し、ステップS1013の処理に移行する。
【0123】
(ステップS1013)
ステップS1013において、判断部122は、変数qに1加算した値を新たなqとし、ステップS1003の処理に移行する。
【0124】
図8から
図10に示す処理を実行することにより、新文献リスト350に含まれる新たな文献全てについて、文書分類装置100は、新たな文献各々が、ノイズであるか否かを判定することができる。
【0125】
以上が、文書分類装置100の動作の説明である。
【0126】
<まとめ>
上記実施の形態に係る文書分類装置は、特許公報に元々付与されている特許分類に基づいて、予め検索式により得られた文献が所望のものであるか否かを、「ノイズ」、「該当」という分類情報を付与しておく。そして、新たな特許公報が入力されたときに、その新たな特許公報に付与されている特許分類と、分類済みの特許公報の特許分類との一致度に基づいて、文献を所定数抽出する。そして、抽出された文献に付与されている分類が「ノイズ」と「該当」とのいずれが多いかによって、新たな特許公報が「ノイズ」であるか「該当」するのかを、特許公報の内容を精査しなくとも分類することができる。そして、ユーザは、ユーザが設定した検索式に応じて検索された文献であっても、ノイズと判定された文献については、その内容を確認する必要がなくなるので、文献のスクリーニングに要する時間を短縮することができる。また、文書分類装置としては、公報内を精査する必要がない(形態素解析を行ったり、形態素解析により抽出された膨大な個数のワードの一致率などを見たりする必要がない)ので、特許文献1〜3に示す分類装置よりもプロセッサの処理負荷を少なくすることができる。
【0127】
<補足>
上記実施の形態に係る文書分類装置は、上記実施の形態に限定されるものではなく、他の手法により実現されてもよいことは言うまでもない。以下、各種変形例について説明する。
【0128】
(1)上記実施の形態においては特に説明していないが、抽出部121が抽出する文献数qは、奇数であることが望ましい。奇数に設定することで、必ず、「ノイズ」か「該当」を特定できるためである。その変数qは、所謂k近傍法を用いて、算出するとよい。
【0129】
なお、qを偶数に設定した場合に、「ノイズ」と「該当」との数が一致するような場合も考えられる。そのため、文書分類装置は、以下のような手法を用いて文書を分類することとしてもよい。即ち、「ノイズ」の文献の基本値を「−1」、「該当」の基本値を「+1」とする。そして、その基本値に対して一致度を重み値として乗じた値を当該文献のノイズか該当かの分類値とする。そして、判断部122は、抽出部121が抽出した文献の分類値を合算し、その値が正であれば、「該当」と分類し、負であれば、「ノイズ」と分類することとしてもよい。当該手法の場合、「ノイズ」か「該当」かの判断処理に係る処理負荷は上述の実施形態に示した処理による処理負荷よりも大きくなるものの、より正確に「ノイズ」か「該当」かの判断を行うことができる。即ち、文書分類装置100は、重み付けによる補正を行った上で、分類を行うこととしてもよい。なお、ここでは、一致度そのものを重み値としているが、これはその限りではなく、任意の値を重み値としてもよい。
【0130】
(2)上記実施の形態においては、ノイズか該当かの判定において過半数を占める方の分類を新たな文献の分類としているが、これはその限りではない。例えば、抽出部121が抽出するq個の文献のうち、所定数以上の文献の分類が「ノイズ」であれば、新たな文献も「ノイズ」であると判断する構成としてもよい。例えば、抽出した文献数を10個とし、そのうちの8個以上の分類が「ノイズ」であれば、新たな文献の分類を「ノイズ」とするように構成してもよい。
【0131】
(3)上記実施の形態においては、各技術的特徴である特許分類がノイズであるか該当であるかを判定するにおいて、ノイズ率が10%未満である分類をノイズ判定0%とし、IPCノイズ率が95%以上である分類をノイズ判定100%とすることとした。ここで、10%の閾値は、対応する分類が付与されている場合に、文献がユーザの所望する文献に該当するか否かを判定するための第2閾値であると言える。つまり、ステップS705における判定は、該当している率が90%以上であるかの判定であるともいえる。また、ステップS707における判定に用いた第1閾値についても同様のことが言える。
【0132】
つまり、文書分類装置100は、文献に付与されている特許分類が該当か否かを示す該当率が第1閾値である90%以上であるか否かに基づいて判定し、非該当率が第2閾値である95%以上であるか否かにに基づいて判定していることが理解できる。ここで、第1閾値と第2閾値との間に差を設けることによって、分類を、ノイズか該当かのいずれかに必ず分類できるようにすることができる。また、その分類がノイズであることを判定することを優先するのか、該当であることを判定することを優先するのかに応じて、第1閾値と第2閾値とを変動させることとしてもよい。そのために、文書分類装置100は、第1閾値、第2閾値を設定するための設定部を備えることとしてもよい。当該設定部に対する入力は、文書分類装置100が学習によって適切な値に設定することとしてもよいし、文書分類装置100のユーザが設定することとしてもよい。なお、これらの判定に用いた閾値のパーセンテージは、上記実施の形態に示した数値に限るものではなく、適宜その設定値を、文書分類装置100のオペレータが変更することができる。
【0133】
(4)上記実施の形態において、IPCノイズ率が100%の分類が付与されている文献を、ノイズと分類し、IPCノイズ率が0%の分類が付与されている文献を、該当に分類することとしている。しかしながら、場合によっては、ノイズ率が100%の分類と、ノイズ率が0%の分類が付与されている文献が存在する可能性がある。そのような場合には、予めユーザが定めた所定の基準にしたがって、文書分類装置100は、その文献を「ノイズ」であると判定してもよいし、「該当」であると判定してもよい。例えば、「ノイズ」を優先する設定とした場合には、「ノイズ」であると判定し、「該当」を優先する設定とした場合には、「該当」であると判定することとしてよい。
【0134】
(5)上記実施の形態においては、文書分類装置が新たな文書データを分類する手法として、文書分類装置100を構成する各機能部として機能するプロセッサが文書分類プログラム等を実行することにより、新たな文書データを分類することとしているが、これは装置に集積回路(IC(Integrated Circuit)チップ、LSI(Large Scale Integration))等に形成された論理回路(ハードウェア)や専用回路によって実現してもよい。また、これらの回路は、1または複数の集積回路により実現されてよく、上記実施の形態に示した複数の機能部の機能を1つの集積回路により実現されることとしてもよい。LSIは、集積度の違いにより、VLSI、スーパーLSI、ウルトラLSIなどと呼称されることもある。すなわち、
図11に示すように、文書分類装置100を構成する各機能部は、物理的な回路により実現されてもよい。
図11に示すように、文書分類装置100は、記憶回路130aと、取得回路110aと、抽出回路121aと、判断回路122aと、出力回路140a、とを備え、各回路は、上述の同名の機能部と同様の機能を有する。
【0135】
また、上記文書分類プログラムは、プロセッサが読み取り可能な記録媒体に記録されていてよく、記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記文書分類プログラムは、当該文書分類プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記プロセッサに供給されてもよい。本発明は、上記文書分類プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
【0136】
なお、上記文書分類プログラムは、例えば、ActionScript、JavaScript(登録商標)などのスクリプト言語、Objective-C、Java(登録商標)などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。
【0137】
(6)上記実施の形態及び各補足に示した構成は、適宜組み合わせることとしてもよい。