(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-11
(45)【発行日】2024-11-19
(54)【発明の名称】文書検索システム、及び文書検索方法
(51)【国際特許分類】
G06F 16/35 20190101AFI20241112BHJP
G06F 16/38 20190101ALI20241112BHJP
【FI】
G06F16/35
G06F16/38
(21)【出願番号】P 2021523121
(86)(22)【出願日】2020-05-11
(86)【国際出願番号】 IB2020054413
(87)【国際公開番号】W WO2020240312
(87)【国際公開日】2020-12-03
【審査請求日】2023-05-01
(31)【優先権主張番号】P 2019097468
(32)【優先日】2019-05-24
(33)【優先権主張国・地域又は機関】JP
(73)【特許権者】
【識別番号】000153878
【氏名又は名称】株式会社半導体エネルギー研究所
(72)【発明者】
【氏名】山本 一宇
(72)【発明者】
【氏名】桃 純平
(72)【発明者】
【氏名】東 和樹
【審査官】松尾 真人
(56)【参考文献】
【文献】特開2013-174988(JP,A)
【文献】高木 徹,検索質問文書の主題分析に基づく類似文書検索,情報処理学会研究報告,社団法人情報処理学会,2004年05月14日,第2004巻, 第45号,pp.91~98
【文献】新森 昭宏,特許請求項読解支援のための「発明の詳細な説明」との自動対応付け,自然言語処理,言語処理学会,2005年07月10日,第12巻, 第3号,pp.111~128
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06Q 10/00-99/00
(57)【特許請求の範囲】
【請求項1】
データベースと、処理部を有し、
前記データベースは、データベース文書データを記憶する機能を有し、
前記処理部は、第1の文書データ
が有する特許出願の特許請求の範囲から、複数の用語を抽出する機能を有し、
前記処理部は、第2の文書データが有する前記特許出願に係る拒絶理由通知書に対する意見書に含まれる文章において、「相違」、「開示されていない」または「異なる」という言葉が含まれる文章を第1の文章に区分し、それ以外を第2の文章に区分する機能を有し、
前記処理部は、前記第1の文書データから抽出した前記用語のうち、前記第1の文章に含まれる前記用語の重みを、前記第1の文章に含まれない前記用語の重みより大きくするように重み付けを行う機能を有し、
前記処理部は、前記重み付けを行った前記用語を基にして、前記データベース文書データの、前記第1の文書データに対する類似度を算出する機能を有する文書検索システム。
【請求項2】
請求項
1において、
前記処理部は、機械学習を行う機能を有し、
前記処理部は、前記機械学習の学習結果を基にして前記区分を行う機能を有
し、
第1の学習用文書データを前記処理部に入力することにより前記処理部から出力されるデータが、第2の学習用文書データに近づくように前記機械学習が行われ、
前記第1の学習用文書データは、前記第2の文書データと同一の種類の文書データであり、
前記第2の学習用文書データは、前記第1の学習用文書データにラベル付けを行った文書データである文書検索システム。
【請求項3】
請求項
1または2において、
前記処理部は、前記用語の抽出を、形態素解析を用いて行う機能を有する文書検索システム。
【請求項4】
データベース文書データが記憶されている文書検索システムを用いた文書検索方法であって、
前記文書検索システムは、第1の文書データ
が有する特許出願の特許請求の範囲と、第2の文書データ
が有する前記特許出願に係る拒絶理由通知書に対する意見書と、が前記文書検索システムに入力された後、前記第1の文書データから、複数の用語を抽出し、
前記第2の文書データが表す文書に含まれる文章において、「相違」、「開示されていない」または「異なる」という言葉が含まれる文章を第1の文章に区分し、それ以外を第2の文章に区分し、
前記第1の文書データから抽出した前記用語のうち、前記第1の文章に含まれる前記用語の重みを、前記第1の文章に含まれない前記用語の重みより大きくするように重み付けを行い、
前記重み付けを行った前記用語を基にして、前記データベース文書データの、前記第1の文書データに対する類似度を算出する文書検索方法。
【請求項5】
請求項
4において、
前記区分は、機械学習を用いて
行い、
前記機械学習を用いた処理を行う機能を有する処理部に第1の学習用文書データを入力することにより前記処理部から出力されるデータが、第2の学習用文書データに近づくように前記機械学習が行われ、
前記第1の学習用文書データは、前記第2の文書データと同一の種類の文書データであり、
前記第2の学習用文書データは、前記第1の学習用文書データにラベル付けを行った文書データである文書検索方法。
【請求項6】
請求項
4または5において、
前記用語の抽出は、形態素解析を用いて行う文書検索方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の一態様は、文書検索システム、及び文書検索方法に関する。
【背景技術】
【0002】
特許権を取得した発明に関し、例えば当該特許権に係る出願の出願日前に公開、又は出願された特許出願文献、及び論文等の非特許文献を調査することで、関連する先行技術が存在するか否かを調査することができる。調査を行うことで得られた国内外の特許文献及び論文等の非特許文献は、自身の所有する特許権が無効化される恐れが無いか、或いは、他者の所有する特許権を無効化できるか等の判断に利用することができる。
【0003】
また、様々な用途において、人工知能の活用が検討されている。特に、機械学習等を利用することで、従来のノイマン型コンピュータよりも高性能なコンピュータが実現できると期待されており、近年、機械学習に関する研究が進められている。
【0004】
例えば、特許文献1には、入力した文献データと類似する知的財産の情報を、人工ニューラルネットワーク(以下、ニューラルネットワークという)を用いて検索する発明が開示されている。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
例えば特許の無効理由を探すために先行技術文献等の調査を行う際には、特許請求の範囲で定義された発明を中心に検索式を作成する必要がある。発明や審査経過を把握することで検索式の質の向上が期待できるが、検索者の経験や理解力を要し時間のかかる作業である。
【0007】
本発明の一態様は、検索者の能力によらず文書を効率良く検索できる文書検索システムを提供することを課題の一つとする。又は、本発明の一態様は、簡便な方法で文書を検索できる文書検索システムを提供することを課題の一つとする。又は、本発明の一態様は、高い精度で文書を検索できる文書検索システムを提供することを課題の一つとする。又は、本発明の一態様は、新規な文書検索システムを提供することを課題の一つとする。
【0008】
又は、本発明の一態様は、検索者の能力によらず文書を効率良く検索できる文書検索方法を提供することを課題の一つとする。又は、本発明の一態様は、簡便な方法で文書を検索できる文書検索方法を提供することを課題の一つとする。又は、本発明の一態様は、高い精度で文書を検索できる文書検索方法を提供することを課題の一つとする。又は、本発明の一態様は、新規な文書検索方法を提供することを課題の一つとする。
【0009】
なお、複数の課題の記載は、互いの課題の存在を妨げるものではない。本発明の一形態は、例示したすべての課題を解決する必要はない。また、列記した以外の課題が、本明細書の記載から、自ずと明らかとなり、このような課題も、本発明の一形態の課題となり得る。
【課題を解決するための手段】
【0010】
本発明の一態様は、データベースと、処理部を有し、データベースは、データベース文書データを記憶する機能を有し、処理部は、第1の文書データから、複数の用語を抽出する機能を有し、処理部は、第2の文書データを基にして、抽出した用語の少なくとも一つに対して重み付けを行う機能を有し、処理部は、重み付けを行った用語を基にして、データベース文書データの、第1の文書データに対する類似度を算出する機能を有する文書検索システムである。
【0011】
又は、上記態様において、処理部は、第2の文書データが表す文書に含まれる文章を、第1の文章と、第2の文章と、に区分する機能を有し、処理部は、第1の文書データから抽出した用語のうち、第1の文章に含まれる用語の重みを、第1の文章に含まれない用語の重みより大きくする機能を有してもよい。
【0012】
又は、上記態様において、処理部は、機械学習を行う機能を有し、処理部は、機械学習の学習結果を基にして文章の区分を行う機能を有してもよい。
【0013】
又は、上記態様において、第1の学習用文書データを処理部に入力することにより処理部から出力されるデータが、第2の学習用文書データに近づくように機械学習が行われ、第1の学習用文書データは、第2の文書データと同一の種類の文書データであり、第2の学習用文書データは、第1の学習用文書データにラベル付けを行った文書データであってもよい。
【0014】
又は、上記態様において、処理部は、用語の抽出を、形態素解析を用いて行う機能を有してもよい。
【0015】
又は、本発明の一態様は、データベース文書データが記憶されている文書検索システムを用いた文書検索方法であって、文書検索システムは、第1の文書データと、第2の文書データと、が文書検索システムに入力された後、第1の文書データから、複数の用語を抽出し、第2の文書データを基にして、抽出した用語の少なくとも一つに対して重み付けを行い、重み付けを行った用語を基にして、データベース文書データの、第1の文書データに対する類似度を算出する文書検索方法である。
【0016】
又は、上記態様において、用語を抽出した後、第2の文書データが表す文書に含まれる文章を、第1の文章と、第2の文章と、に区分し、第1の文書データから抽出した用語のうち、第1の文章に含まれる用語の重みが、第1の文章に含まれない用語の重みより大きくなるように、重み付けを行ってもよい。
【0017】
又は、上記態様において、文章の区分は、機械学習を用いて行ってもよい。
【0018】
又は、上記態様において、機械学習を用いた処理を行う機能を有する処理部に第1の学習用文書データを入力することにより処理部から出力されるデータが、第2の学習用文書データに近づくように機械学習が行われ、第1の学習用文書データは、第2の文書データと同一の種類の文書データであり、第2の学習用文書データは、第1の学習用文書データにラベル付けを行った文書データであってもよい。
【0019】
又は、上記態様において、用語の抽出は、形態素解析を用いて行ってもよい。
【発明の効果】
【0020】
本発明の一態様により、検索者の能力によらず文書を効率良く検索できる文書検索システムを提供することができる。又は、本発明の一態様により、高い精度で文書を検索できる文書検索システムを提供することができる。又は、本発明の一態様により、新規な文書検索システムを提供することができる。
【0021】
又は、本発明の一態様により、検索者の能力によらず文書を効率良く検索できる文書検索方法を提供することができる。又は、本発明の一態様により、高い精度で文書を検索できる文書検索方法を提供することができる。又は、本発明の一態様により、新規な文書検索方法を提供することができる。
【0022】
なお、複数の効果の記載は、他の効果の存在を妨げるものではない。また、本発明の一態様は、必ずしも、例示した効果のすべてを有する必要はない。また、本発明の一態様について、上記以外の課題、効果、及び新規な特徴については、本明細書の記載及び図面から自ずと明らかになるものである。
【図面の簡単な説明】
【0023】
図1は、文書検索システムの一例を示すブロック図である。
図2は、文書検索方法の一例を説明するためのフローチャートである。
図3は、文書検索方法の一例を説明するための模式図である。
図4A、
図4B1、
図4B2、及び
図4Cは、それぞれ、文書検索方法の一例を説明するための表である。
図5A及び
図5Bは、それぞれ、文書検索方法の一例を説明するための表である。
図6Aは、文書検索方法の一例を説明するためのフローチャートである。
図6Bは、文書検索方法の一例を説明するための表である。
図7A及び
図7Bは、それぞれ、文書検索方法の一例を説明するための模式図である。
図8は、文書検索方法の一例を説明するための模式図である。
図9は、文書検索方法の一例を説明するための模式図である。
図10A及び
図10Bは、それぞれ、文書検索方法の一例を説明するための模式図である。
図11は、文書検索方法の一例を説明するための模式図である。
図12は、文書検索方法の一例を説明するための模式図である。
【発明を実施するための形態】
【0024】
以下に、本発明の実施の形態を説明する。ただし、本発明の一態様は、以下の説明に限定されず、本発明の趣旨及びその範囲から逸脱することなくその形態及び詳細を様々に変更し得ることは、当業者であれば容易に理解される。したがって、本発明の一態様は、以下に示す実施の形態の記載内容に限定して解釈されるものではない。
【0025】
なお本明細書等において、「第1」、「第2」、「第3」という序数詞は、構成要素の混同を避けるために付したものである。従って、構成要素の数を限定するものではない。また、構成要素の順序を限定するものではない。また例えば、本明細書等において「第1」の構成要素を、特許請求の範囲において、「第2」の構成要素と記載することもありうる。また例えば、本明細書等において「第1」の構成要素を、特許請求の範囲において省略することもありうる。
【0026】
また、複数の要素に同じ符号を用いる場合、特に、それらを区別する必要があるときには、符号に“[1]”、“[2]”、“[n]”等の識別用の符号を付記して記載する場合がある。
【0027】
(実施の形態)
本実施の形態では、本発明の一態様の文書検索システム及び文書検索方法について
図1乃至
図12を用いて説明する。
【0028】
本実施の形態では、文書検索システムの一例として、知的財産の検索に用いることができる文書検索システム、及び当該文書検索システムを用いた文書検索方法について説明する。なお、本発明の一態様の文書検索システムは、知的財産の検索に限られず、知的財産以外の検索に使用することもできる。
【0029】
本発明の一態様の文書検索方法では、まず、本発明の一態様の文書検索システムの使用者が、第1の文書データと、第2の文書データと、を本発明の一態様の文書検索システムに入力する。第1の文書データは、発明が記載された文書を表す文書データとすることができ、第2の文書データは、第1の文書データが表す文書に記載されている内容について議論、及び説明等を行っている文書を表す文書データとすることができる。例えば、第2の文書データは、第1の文書データが表す文書に記載された発明の特徴を表す文書データとすることができる。例えば、第1の文書データが、特許出願に係る特許請求の範囲を表すものとすると、第2の文書データは、当該特許出願の拒絶理由に対する反論が記載された意見書を表すものとすることができる。
【0030】
第1及び第2の文書データが本発明の一態様の文書検索システムに入力されると、当該文書検索システムは、第1の文書データから複数の用語を抽出する。例えば、第1の文書データに対して形態素解析を行うことにより、複数の用語を抽出することができる。
【0031】
次に、文書検索システムは、第2の文書データを基にして、第1の文書データから抽出した用語のそれぞれに対して重み付けを行う。例えば、第2の文書データが表す文書に含まれる文章を、第1の文章と、第2の文章と、に区分する。例えば、上述のように第1の文書データが特許出願に係る特許請求の範囲を表し、第2の文書データが拒絶理由に対する反論が記載された意見書を表すものとすると、第1の文書データに係る特許出願に対する拒絶理由を回避するために主張された発明の特徴を表す文章を、第1の文章とすることができる。この場合、例えば第2の文書データが表す文書に含まれる文章のうち、第1の文章以外の文章を第2の文章とすることができる。ここで、第1の文章と、第2の文章と、への区分(分類ともいう)は、例えばルールベース、又は、機械学習を用いて行うことができる。
【0032】
本明細書等において「文章」という言葉は、まとまった内容を表す、文字の集合を示す。また、「文書」という言葉は、文章を含む媒体を示す。例えば、特許文献(公開特許公報、特許公報等)、論文、拒絶理由通知書、意見書等は、文書である。また、例えば、特許文献に含まれる特許請求の範囲、明細書、及び要約書は、それぞれ文書であるということができる。なお、「文書」には、文章の他に図面、画像等が含まれていてもよい。
【0033】
そして、第1の文書データから抽出した用語のうち、第1の文章に含まれる用語の重みを、第1の文章に含まれない用語の重みより大きくする。つまり、第1の文章に含まれる用語の重みを、第1の文章に含まれず第2の文章にのみ含まれる用語の重み、並びに第1及び第2の文章のいずれにも含まれない用語の重みより大きくする。
【0034】
その後、重み付けを行った用語を基にして、データベースに記憶されている文書データであるデータベース文書データの、第1の文書データに対する類似度を算出する。例えば、上記の方法で第1の文書データから抽出し、重み付けを行った用語が、データベース文書データに含まれているか否かを判定する。第1の文書データから抽出し、重み付けを行った用語が、データベース文書データに含まれている場合は、当該用語の重みをスコアとする。第1の文書データから抽出し、重み付けを行った用語が、データベース文書データに含まれていない場合は、スコアは0とする。以上のような判定とスコアの算出を、例えば、第1の文書データから抽出した用語のすべてについて行う。スコアの合計値を、データベース文書データの、第1の文書データに対する類似度とすることができる。つまり、例えば、第1の文書データから抽出した用語のうち、データベース文書データに含まれる用語の重みの合計値を、当該データベース文書データの、第1の文書データに対する類似度とすることができる。
【0035】
以上の方法で類似度を算出することにより、例えば第1の文書データから抽出した用語に対して重み付けを行わない場合より、第1の文書データが表す文書に記載された発明等の特徴を反映した類似度を得ることができる。これにより、検索者である本発明の一態様の文書検索システムの使用者の能力によらずに、文書を効率良く検索することができる。
【0036】
<1.文書検索システムの構成例>
本実施の形態では、文書検索システムの一例として、知的財産の検索に用いることができる文書検索システムについて説明する。なお、本発明の一態様の文書検索システムは、知的財産の検索に限られず、知的財産以外の検索に使用することもできる。
【0037】
図1は、本発明の一態様の文書検索システムである文書検索システム10の構成例を示すブロック図である。
図1において、矢印はデータ等の流れを示す。なお、
図1で示したデータ等の流れは一例であり、矢印で示していない方向にデータ等が流れてもよい。
【0038】
本明細書に添付した図面では、構成要素を機能ごとに分類し、互いに独立したブロックとしてブロック図を示しているが、実際の構成要素は機能ごとに完全に切り分けることが難しく、一つの構成要素が複数の機能に係わることもあり得る。また、一つの機能が複数の構成要素に係わることもあり得る。
【0039】
図1は、文書検索システム10の構成例を示すブロック図である。文書検索システム10は、少なくとも処理部20を有し、処理部20は重み付与部21と、検索実行部23と、を有する。また、文書検索システム10は、処理部20の他、入力部11、記憶部15、データベース17、及び出力部19を有することができる。なお、重み付与部21、検索実行部23、入力部11、記憶部15、データベース17、及び出力部19は、文書検索システム10の使用者のPC(Personal Computer)に設けられていてもよいし、当該PCとネットワークを介して接続されたサーバに設けられていてもよい。例えば、重み付与部21、検索実行部23、入力部11、記憶部15、データベース17、及び出力部19のうちの一部が文書検索システム10の使用者のPCに設けられ、他の一部が当該PCとネットワークを介して接続されたサーバに設けられていてもよい。
【0040】
入力部11には、データが入力される。例えば、文書検索システム10の使用者が、入力部11にデータを入力することができる。入力部11に入力されたデータは、重み付与部21に供給することができる。また、入力部11に入力されたデータを、検索実行部23、記憶部15、データベース17等に供給してもよい。また、入力部11に入力されたデータの一部を、重み付与部21、検索実行部23、記憶部15、データベース17等に供給してもよい。
【0041】
記憶部15は、処理部20が実行するプログラムを記憶する機能を有する。また、記憶部15は、処理部20の処理結果、及び入力部11に入力されたデータ等を記憶する機能を有してもよい。
【0042】
記憶部15は、揮発性メモリ及び不揮発性メモリのうち少なくとも一方を有する。記憶部15は、例えば、DRAM、SRAM等の揮発性メモリを有していてもよい。記憶部15は、例えば、ReRAM(Resistive Random Access Memory)等に代表される抵抗変化型のメモリ、PRAM(Phase change Random Access Memory)、FeRAM(Ferroelectric Random Access Memory)、MRAM(Magnetoresistive Random Access Memory)等に代表される磁気抵抗型のメモリ、又はフラッシュメモリ等の不揮発性メモリを有していてもよい。また、記憶部15は、ハードディスクドライブ(Hard Disc Drive:HDD)及びソリッドステートドライブ(Solid State Drive:SSD)等の記録メディアドライブを有していてもよい。
【0043】
データベース17は、少なくとも、検索対象となるデータベース文書データを記憶する機能を有する。また、データベース17は、処理部20による処理結果、及び入力部11に入力されたデータ等を記憶する機能を有してもよい。なお、記憶部15及びデータベース17は、互いに分離されていなくてもよい。例えば、文書検索システム10は、記憶部15とデータベース17の双方の機能を有する記憶ユニットを有していてもよい。
【0044】
処理部20は、入力部11、記憶部15、及びデータベース17等から供給されたデータ等を用いて、演算、推論等の処理を行う機能を有する。処理部20は、処理結果を出力部19に供給する機能を有する。また、処理部20は、処理結果を記憶部15、又はデータベース17等に供給する機能を有してもよい。
【0045】
具体的には、処理部20が有する重み付与部21及び検索実行部23のうち、重み付与部21は、入力部11、及び記憶部15から供給されたデータ等を用いて処理を行う機能を有する。また、検索実行部23は、重み付与部21の処理結果、並びに入力部11、記憶部15、及びデータベース17から供給されたデータ等を用いて検索処理を行う機能を有する。検索実行部23による検索結果は、出力部19に供給することができる。なお、重み付与部21及び検索実行部23が行うことができる具体的な処理の内容については後述する。
【0046】
処理部20は、例えば、演算回路又は中央演算装置(CPU:Central Processing Unit)等を有する。
【0047】
処理部20は、DSP(Digital Signal Processor)、GPU(Graphics Processing Unit)等のマイクロプロセッサを有していてもよい。マイクロプロセッサは、FPGA(Field Programmable Gate Array)、FPAA(Field Programmable Analog Array)等のPLD(Programmable Logic Device)によって構成されていてもよい。処理部20は、プロセッサにより種々のプログラムからの命令を解釈し実行することで、各種のデータ処理及びプログラム制御を行うことができる。プロセッサにより実行しうるプログラムは、プロセッサが有するメモリ領域、及び記憶部15のうち少なくとも一方に格納される。
【0048】
処理部20はメインメモリを有していてもよい。メインメモリは、RAM(Random Access Memory)等の揮発性メモリ、及びROM(Read Only Memory)等の不揮発性メモリのうち少なくとも一方を有する。
【0049】
RAMとしては、例えばDRAM(Dynamic Random Access Memory)、SRAM(Static Random Access Memory)等が用いられ、処理部20の作業空間として仮想的にメモリ空間が割り当てられ利用される。記憶部15に格納されたオペレーティングシステム、アプリケーションプログラム、プログラムモジュール、プログラムデータ、及びルックアップテーブル等は、実行のためにRAMにロードされる。RAMにロードされたこれらのデータ、プログラム、及びプログラムモジュールは、それぞれ、処理部20に直接アクセスされ、操作される。
【0050】
ROMには、書き換えを必要としない、BIOS(Basic Input/Output System)及びファームウェア等を格納することができる。ROMとしては、マスクROM、OTPROM(One Time Programmable Read Only Memory)、EPROM(Erasable Programmable Read Only Memory)等が挙げられる。EPROMとしては、紫外線照射により記憶データの消去を可能とするUV-EPROM(Ultra-Violet Erasable Programmable Read Only Memory)、EEPROM(Electrically Erasable Programmable Read Only Memory)、フラッシュメモリ等が挙げられる。
【0051】
出力部19は、文書検索システム10のデータを出力する機能を有する。具体的には、例えば、処理部20の処理結果を出力することができる。例えば、検索実行部23による検索結果を表示装置に表示してもよいし、検索結果を電子ファイルの形で出力してもよい。
【0052】
<2.文書検索方法1>
文書検索システム10を用いた文書検索方法について説明する。
図2は、文書検索システム10を用いた文書検索方法の一例を示すフローチャートである。
図3は、
図2に示すステップS01の動作を説明する模式図である。
図4Aは、
図2に示すステップS02の動作を説明する模式図である。
図4B1、及び
図4B2は、
図2に示すステップS03の動作を説明する模式図である。
図4C、及び
図5A、及び
図5Bは、
図2に示すステップS04の動作を説明する模式図である。
【0053】
[ステップS01]
まず、文書検索システム10の使用者が、入力部11に文書データTDと参照文書データRTDを入力する。文書データTDと参照文書データRTDは同時に入力してもよいし、別々に入力してもよい。
【0054】
文書データTD及び参照文書データRTDは、入力部11から重み付与部21に供給することができる。
【0055】
文書データTDは、例えば、発明、考案、意匠、発売前の工業製品、技術情報、又は技術的思想を説明する文書等を有する。特に、文書データTDとして、特許請求の範囲、要約書、又は発明の概要を説明する文書等を用いることができる。このような文書は、明細書全文に比べて文章量が少ないため、文書データTDに含まれる特徴的なキーワードを抽出しやすい。
【0056】
参照文書データRTDは、文書データTDが表す文書に記載されている内容について議論、及び説明等を行っている文書を表す文書データとすることができる。例えば、参照文書データRTDは、文書データTDが表す文書に記載された発明等の特徴を表す文書データとすることができる。例えば、意見書には、特許出願等の拒絶理由に対する反論のために、特許出願等に係る発明等の特徴が記載されている。具体的には、例えば新規性違反、及び進歩性違反の拒絶理由の解消のために、引用文献との差別化点を意見書に記載した場合、当該差別化点を、特許出願等に係る発明等の特徴とすることができる。よって、参照文書データRTDは、例えば、文書データTDに係る特許出願等に対する拒絶理由への反論が記載された意見書とすることができる。又は、文書データTDに係る特許等に対して異議申し立てがされた場合、参照文書データRTDは、新規性違反、進歩性違反の異議理由に対する反論が記載された意見書とすることができる。又は、文書データTDに係る特許等に対して無効審判が提起された場合、参照文書データRTDは、新規性違反、進歩性違反の無効理由に対する反論が記載された答弁書とすることができる。又は、文書データTDが表す文書に記載された発明等の特徴を、上申書に記載した場合、参照文書データRTDは当該上申書とすることができる。
図3では、文書データTDを特許請求の範囲とし、参照文書データRTDを意見書としている。以下の説明においても、文書データTDを特許請求の範囲とし、参照文書データRTDを文書データTDに係る特許出願に対して通知された拒絶理由に対する反論が記載された意見書とする。
【0057】
文書検索システム10を用いた文書検索方法では、参照文書データRTDを考慮しつつ、文書データTDに類似する文書データをデータベース文書データの中から検索することができる。
【0058】
[ステップS02]
次に、重み付与部21が、文書データTDから用語を抽出することにより、用語データTmDを取得する。例えば、文書データTDに対して形態素解析を行うことにより、用語を抽出する。抽出した用語のうち、例えば名詞を用語データTmDに含まれる用語とすることができ、例えばすべての名詞を用語データTmDに含まれる用語とすることができる。
図4Aでは、用語「aaa」、「bbb」、「ccc」、及び「ddd」を文書データTDから抽出し、これらの用語が用語データTmDに含まれる例を示している。なお、重みについては後述する。
【0059】
ここで、文書データTD等から抽出する「用語」は、例えば「名詞」、「動詞」、「助詞」等の形態素に分割できる最小単位とすることができる。又は、2つ以上の単語により1つの「用語」が構成されていてもよい。又は、文節を「用語」としてもよい。
【0060】
[ステップS03]
次に、重み付与部21が、参照文書データRTDを基にして、用語データTmDに含まれる各用語に対して重みを付ける。重み付けを行った用語データを、用語データTmDwとする。例えば、参照文書データRTDが表す文書に含まれる文章を、第1の文章と、第2の文章と、に区分(分類ともいう)し、第1の文章に含まれる用語の重みを、第1の文章に含まれない用語の重みより大きくする。つまり、第1の文章に含まれる用語の重みを、第1の文章に含まれず第2の文章にのみ含まれる用語の重み、並びに第1及び第2の文章のいずれにも含まれない用語の重みより大きくする。なお、参照文書データRTDが表す文書に含まれる文章を、第1乃至第3の文章に区分してもよい。この場合、例えば、第1の文章に含まれる用語の重みを、第1の文章に含まれず第2の文章に含まれる用語の重みより大きくすることができる。また、第1の文章に含まれず第2の文章に含まれる用語の重みを、第1及び第2の文章のいずれにも含まれない用語の重みより大きくすることができる。なお、参照文書データRTDが表す文書に含まれる文章を、第1乃至第kの文章(kは2以上の整数)に区分してもよい。
【0061】
ここで、例えば参照文書データRTDが表す文書に含まれる文章のうち、文書データTDに係る発明等の特徴を強く表す文章を第1の文章とし、それ以外の文章を第2の文章とすることができる。例えば、文書データTDが特許請求の範囲、参照文書データRTDが拒絶理由に対する反論が記載された意見書であるとすると、参照文書データRTDに含まれる文章のうち、文書データTDに係る特許出願に対する拒絶理由を回避するために、発明の特徴等を強く主張している文章を第1の文章とすることができる。例えば、「相違」、「開示されていない」、「異なる」という言葉が含まれる文、又は段落等を第1の文章とすることができる。参照文書データに含まれる文章の区分は、このような特定の用語をキーワードとして、ルールベースで行うことができる。
【0062】
なお、参照文書データRTDに含まれる第1の文章は、連続する1つの文章でなくてもよい。つまり、参照文書データRTDには、第1の文章が複数含まれていてもよい。第2乃至第kの文章についても同様である。
【0063】
図3では、用語「bbb」が第1の文章31に含まれ、用語「aaa」及び用語「ddd」が第2の文章32に含まれる例を示している。また、
図4B1では、用語データTmDに含まれる用語(ステップS02で文書データTDから抽出した用語)のうち、第1の文章31に含まれる用語「bbb」の重みを他の用語の重みより大きくする場合を示している。
【0064】
例えば参照文書データRTDが表す文書に含まれる文章を第1の文章31と、第2の文章32と、に区分する場合の、用語データTmDに含まれる各用語の重みの算出方法の一例を説明する。用語データTmDに含まれる各用語のうち、第1の文章31に含まれない用語の重みは1とする。そして、第1の文章31に含まれる用語の重みは、以下の式で算出する。ここで、第1の文章31に含まれる用語の重みをW、用語データTmDに含まれる用語の個数をN、用語データTmDに含まれる用語のうち、第1の文章31に含まれる用語の個数をNftrとする。
【0065】
【0066】
第1の文章31に含まれる用語の重みを数式1で算出することにより、用語データTmDに含まれる用語の個数Nが多いほど、第1の文章31に含まれる用語の重みが大きくなる。また、用語データTmDに含まれる用語のうち、第1の文章31に含まれる用語の個数Nftrが少ないほど、第1の文章31に含まれる用語の重みが大きくなる。
【0067】
図4B1には、用語「bbb」の重みを数式1で算出した例を示している。数式1において、Nは4、N
ftrは1となるため、重みWは3となる。
【0068】
なお、用語データTmDに含まれる用語のうち、第1の文章31、及び第2の文章32のいずれにも含まれない用語の重みを、第1の文章31には含まれないが第2の文章32には含まれる用語の重みより小さくしてもよい。
図4B2には、
図3に示す第1の文章31、及び第2の文章32のいずれにも含まれない用語「ccc」の重みを0とし、第1の文章31には含まれないが第2の文章32には含まれる用語「aaa」、及び用語「ddd」の重みを1とする例を示している。
【0069】
[ステップS04]
次に、ステップS03で重み付けを行った用語データである用語データTmDwを基にして、データベース文書データDbTDの、文書データTDに対する類似度を、検索実行部23が算出する。例えば、用語データTmDwに含まれる用語が、データベース文書データDbTDに含まれているか否かを判定する。用語データTmDwに含まれる用語が、データベース文書データDbTDに含まれている場合は、当該用語の重みをスコアとする。用語データTmDwに含まれる用語が、データベース文書データDbTDに含まれていない場合は、スコアは0とする。以上のような判定とスコアの算出を、例えば、用語データTmDwに含まれるすべての用語について行う。スコアの合計値を、データベース文書データDbTDの、文書データTDに対する類似度とすることができる。つまり、例えば、用語データTmDwに含まれる用語のうち、データベース文書データDbTDに含まれる用語の重みの合計値を、当該データベース文書データの、文書データTDに対する類似度とすることができる。以上述べた類似度の算出方法を数式で表すと、以下のようになる。ここで、データベース文書データDbTDの、文書データTDに対する類似度をSIM、用語データTmDwに含まれる用語の個数をm、i番目の用語の重みをWiとする。また、データベース文書データDbTDにi番目の用語が含まれている場合はYiを1とし、含まれていない場合はYiを0とする。
【0070】
【0071】
図4Cには、データベース文書データDbTD[1]乃至データベース文書データDbTD[n](nは1以上の整数)の、文書データTDに対する類似度の算出結果の一例を示している。ここで、用語データTmD
wに含まれる用語、及びその重みは、
図4B1に示す通りとする。
図4Cにおいて、データベース文書データDbTDに含まれる用語は“○”で示し、データベース文書データDbTDに含まれない用語は“×”で示している。
【0072】
図4Cに示す例では、データベース文書データDbTD[1]には用語「aaa」、「ccc」、「ddd」が含まれ、用語「bbb」は含まれていない。用語「aaa」、「ccc」、「ddd」の重みはすべて1であるため、データベース文書データDbTD[1]の、文書データTDに対する類似度は3とすることができる。また、データベース文書データDbTD[2]には用語「aaa」、「bbb」が含まれ、用語「ccc」、「ddd」は含まれていない。用語「aaa」の重みは1であり、用語「bbb」の重みは3であるため、データベース文書データDbTD[2]の、文書データTDに対する類似度は4とすることができる。
【0073】
また、データベース文書データDbTD[n-1]には用語「aaa」、「bbb」、「ccc」、「ddd」のすべてが含まれている。用語「aaa」、「ccc」、「ddd」の重みは1であり、用語「bbb」の重みは3であるため、データベース文書データDbTD[n-1]の、文書データTDに対する類似度は6とすることができる。さらに、データベース文書データDbTD[n]には用語「aaa」、「bbb」、「ccc」、「ddd」が全く含まれていない。この場合、データベース文書データDbTD[n]の、文書データTDに対する類似度は0とすることができる。
【0074】
なお、データベース文書データDbTDに含まれる文章全体に対して、用語データTmDwが有する用語が含まれているか否かの判定を行うのではなく、データベース文書データDbTDに含まれる文章の一部に対して当該判定を行ってもよい。例えば、データベース文書データDbTDに含まれる文章のうち、発明の趣旨を表す文章に対してのみ、用語データTmDwに含まれる用語が含まれているか否かの判定を行ってもよい。又は、例えば、データベース文書データDbTDに含まれる文章のうち、書誌的事項を表す文章以外の文章に対してのみ、用語データTmDwに含まれる用語が含まれているか否かの判定を行ってもよい。
【0075】
図4Cに示す例では、同じ用語が同じデータベース文書データDbTDに複数回登場しても、類似度の算出の際に出現回数を考慮していないが、出現回数を考慮してもよい。例えば、用語データTmD
wに含まれる用語の出現回数と、当該用語の重みと、の積をスコアとする。当該スコアの算出を、例えば用語データTmD
wに含まれるすべての用語について行う。スコアの合計値を、データベース文書データDbTDの、文書データTDに対する類似度とすることができる。以上述べた類似度の算出方法を数式で表すと、以下のようになる。ここで、データベース文書データDbTDの、文書データTDに対する類似度をSIM、用語データTmD
wに含まれる用語の個数をm、i番目の用語の重みをW
iとする。また、i番目の用語の、データベース文書データDbTDへの出現回数をT
iとする。
【0076】
【0077】
図5Aには、データベース文書データDbTD[1]乃至データベース文書データDbTD[n]の、文書データTDに対する類似度の算出結果の一例を示している。
図5Aに示す例では、類似度を数式3により計算している。
図5Aでは、用語データTmD
wに含まれる用語(ステップS02で文書データTDから抽出した用語)のそれぞれについて、データベース文書データDbTDへの出現回数を示している。なお、
図4Cに示す例と同様に、用語データTmD
wには用語「aaa」、「bbb」、「ccc」、「ddd」が含まれ、用語「aaa」、「ccc」、「ddd」の重みは1、用語「bbb」の重みは3とする。
【0078】
図5Aに示す例では、データベース文書データDbTD[1]には用語「aaa」が10回出現し、用語「ccc」が3回出現し、用語「ddd」が5回出現する。一方、用語「bbb」は1回も出現しない。用語「aaa」、「ccc」、「ddd」の重みはすべて1であるため、データベース文書データDbTD[1]の、文書データTDに対する類似度は18とすることができる。また、データベース文書データDbTD[2]には用語「aaa」が4回出現し、用語「bbb」が7回出現する。一方、用語「ccc」、「ddd」は1回も出現しない。用語「aaa」の重みは1であり、用語「bbb」の重みは3であるため、データベース文書データDbTD[2]の、文書データTDに対する類似度は25とすることができる。
【0079】
また、データベース文書データDbTD[n-1]には用語「aaa」が15回出現し、用語「bbb」が10回出現し、用語「ccc」が20回出現し、用語「ddd」が25回出現する。用語「aaa」、「ccc」、「ddd」の重みは1であり、用語「bbb」の重みは3であるため、データベース文書データDbTD[n-1]の、文書データTDに対する類似度は90とすることができる。さらに、データベース文書データDbTD[n]には用語「aaa」、「bbb」、「ccc」、「ddd」のいずれも1回も出現しない。この場合、データベース文書データDbTD[n]の、文書データTDに対する類似度は0とすることができる。
【0080】
文書データTDから抽出した用語が、データベース文書データDbTDに繰り返し出現する場合、文書データTDが表す文書に記載されている内容と、データベース文書データDbTDが表す文書に記載されている内容と、が類似する可能性が高い。例えば、文書データTDが表す文書に記載されている発明等と、データベース文書データDbTDが表す文書に記載されている発明等と、が類似する可能性が高い。よって、同じ用語のデータベース文書データDbTDへの出現回数を考慮して類似度を算出することにより、文書検索システム10が、類似度の算出を高い精度で行うことができる。
【0081】
図5Aに示す例では、用語データTmD
wに含まれるすべての用語について、類似度の算出の際に用語のデータベース文書データDbTDへの出現回数を考慮したが、本発明の一態様はこれに限らない。例えば、重みの大きさに応じて、用語の出現回数の考慮の有無を変えてもよい。例えば、重みが規定値以上の用語のみ、類似度の算出の際に当該用語の出現回数を考慮してもよい。又は、文書検索システム10の使用者が指定した用語のみ、データベース文書データDbTDへの出現回数を考慮してもよい。もしくは、考慮する出現回数の上限値を決めてもよい。例えば、当該上限値を10とする場合、11回以上出現した用語であっても、10回しか出現しなかったものとみなして類似度を算出することができる。
【0082】
図5Bには、データベース文書データDbTD[1]乃至データベース文書データDbTD[n]の、文書データTDに対する類似度の算出結果の一例を示している。なお、
図5Aに示す例と同様に、用語データTmD
wには用語「aaa」、「bbb」、「ccc」、「ddd」が含まれ、用語「aaa」、「ccc」、「ddd」の重みは1、用語「bbb」の重みは3とする。また、用語「aaa」、「bbb」、「ccc」、「ddd」の、データベース文書データDbTD[1]乃至データベース文書データDbTD[n]への出現回数も
図5Aに示す例と同様とする。
【0083】
図5Bに示す例では、重みが3である用語「bbb」は、データベース文書データDbTDへの出現回数を考慮し、重みが1である用語「aaa」、「ccc」、「ddd」は、データベース文書データDbTDへの出現回数を考慮していない。具体的には、用語「aaa」、「ccc」、「ddd」については、データベース文書データDbTDに1回以上出現すればスコアは1とし、1回も出現しなければスコアは0とする。一方、用語「bbb」については、重みと、データベース文書データDbTDへの出現回数と、の積をスコアとする。用語「aaa」、「bbb」、「ccc」、「ddd」についてのスコアの合計値を、データベース文書データDbTDの、文書データTDに対する類似度とする。
【0084】
図5Bに示す例では、データベース文書データDbTD[1]の、文書データTDに対する類似度は3とすることができ、データベース文書データDbTD[2]の、文書データTDに対する類似度は22とすることができる。また、データベース文書データDbTD[n-1]の、文書データTDに対する類似度は33とすることができ、データベース文書データDbTD[n]の、文書データTDに対する類似度は0とすることができる。
【0085】
文書データTDから抽出した用語であったとしても、重みが小さい用語は、文書データTDに係る発明等の特徴を強くは表していない可能性が高い。例えば、参照文書データRTDを意見書とし、当該意見書に記載された、引用文献との差別化点を文書データTDに係る発明等の特徴とする場合、重みが小さい用語は、記載要件違反等に対する反論にのみ使われている可能性がある。この場合、重みが小さい用語は、引用文献との差別化点を全く表していない可能性がある。よって、重みが小さい用語に対してもデータベース文書データDbTDへの出現回数を考慮すると、データベース文書データDbTDの、文書データTDに対する類似度の算出を高い精度で行うことができない可能性がある。よって、重みの大きさに応じて、用語の出現回数の考慮の有無を変えることにより、文書データTDに係る発明等の特徴と類似する特徴を有する発明等が記載されたデータベース文書を表すデータベース文書データDbTDの、文書データTDに対する類似度を高くすることができる。よって、文書検索システム10が、類似度の算出を高い精度で行うことができる。
【0086】
以上、
図4C、
図5A、及び
図5B等に示す方法により類似度を算出した後、算出した類似度に基づいて文書検索システム10がデータベース文書データDbTDを出力する。例えば、類似度が高いほうから順に、所定の個数のデータベース文書データDbTDを文書検索システム10が出力する。又は、例えば、類似度が規定値以上のデータベース文書データDbTDを文書検索システム10が出力する。以上により、文書検索システム10は、参照文書データRTDを考慮しつつ、文書データTDに類似するデータベース文書データDbTDを検索することができる。
【0087】
以上、本発明の一態様の文書検索方法は、文書データTDから用語を抽出し、抽出した用語に対して、参照文書データRTDを基に重み付けを行い、当該重みを考慮してデータベース文書データDbTDの、文書データTDに対する類似度を算出する。このような方法で類似度を算出することにより、例えば文書データTDから抽出した用語に対して重み付けを行わない場合より、文書データTDが表す文書に記載された発明等の特徴を反映した類似度を得ることができる。これにより、検索者である文書検索システム10の使用者の能力によらずに、文書を効率良く検索することができる。
【0088】
<3.文書検索方法2>
図6Aは、文書検索システム10を用いた文書検索方法の一例を示すフローチャートである。
図6Aに示す方法において、ステップS11及びステップS12の動作は、
図2等に示すステップS01及びステップS02の動作と同様である。
【0089】
[ステップS13]
ステップS12の動作の終了後、文書データTDから用語を抽出することにより重み付与部21が取得した用語データTmDを基にして、データベース文書データDbTDの、文書データTDに対する類似度を、検索実行部23が算出する。当該類似度を、第1の類似度とする。第1の類似度は、
図2等に示すステップS04と同様の方法で算出することができる。ここで、用語データTmDに含まれる用語の重みは、すべて同一とすることができる。つまり、例えばすべての用語の重みを1とすることができる。以上より、第1の類似度は、参照文書データRTDを考慮せずに算出した類似度であるということができる。
【0090】
ステップS14及びステップS15の動作は、
図2等に示すステップS03及びステップS04の動作と同様である。
【0091】
[ステップS16]
ステップS15の動作の終了後、検索実行部23が、第1の類似度と、第2の類似度と、を比較する。例えば、第2の類似度が第1の類似度より高いデータベース文書データDbTDを、文書検索システム10の使用者に提示する。例えば、第2の類似度と、第1の類似度と、の差が規定値以上のデータベース文書データDbTDを、文書検索システム10の使用者に提示する。
【0092】
又は、例えば第1の類似度が高いほうから降順にデータベース文書データDbTDを並べた第1のランキングと、第2の類似度が高いほうから降順にデータベース文書データDbTDを並べた第2のランキングと、を検索実行部23が作成する。その後、第2のランキングでの順位が、第1のランキングでの順位と異なるデータベース文書データDbTDを、文書検索システム10の使用者に提示する。例えば、第2のランキングでの順位が、第1のランキングでの順位より高いデータベース文書データDbTDを、文書検索システム10の使用者に提示する。例えば、第2のランキングでの順位が、第1のランキングでの順位より規定値以上上昇したデータベース文書データDbTDを、文書検索システム10の使用者に提示する。以上が
図6Aに示す文書検索方法の一例である。
【0093】
図6Bには、データベース文書データDbTD[1]乃至データベース文書データDbTD[n]の、文書データTDに対する第1及び第2の類似度の算出結果の一例を示している。ここで、用語データTmDに含まれる用語(すなわち、ステップS12で文書データTDから抽出した用語)は、
図4Cに示す場合と同様に「aaa」、「bbb」、「ccc」、「ddd」の4つとする。
【0094】
また、第1及び第2の類似度は、数式2により算出している。ここで、第1の類似度は、これら4つの用語の重みをすべて1として算出し、第2の類似度は、これら4つの用語の重みが
図4B1に示す値であるとして算出している。また、
図6Bにおいて、データベース文書データDbTDに含まれる用語は“○”で示し、データベース文書データDbTDに含まれない用語は“×”で示している。各用語がデータベース文書データDbTD[1]乃至データベース文書データDbTD[n]に含まれるか否かは、
図4Cに示す例と同様としている。
【0095】
図6Bに示す例では、データベース文書データDbTD[1]の、文書データTDに対する第1の類似度は3とすることができ、第2の類似度も3とすることができる。また、データベース文書データDbTD[2]の、文書データTDに対する第1の類似度は2とすることができ、第2の類似度は4とすることができる。また、データベース文書データDbTD[n-1]の、文書データTDに対する第1の類似度は4とすることができ、第2の類似度は6とすることができる。さらに、データベース文書データDbTD[n]の、文書データTDに対する第1の類似度は0とすることができ、第2の類似度も0とすることができる。以上より、データベース文書データDbTD[2]及びデータベース文書データDbTD[n-1]は、第2の類似度が第1の類似度より大きくなっている。
図6Bでは、データベース文書データDbTD[2]の第2の類似度と、データベース文書データDbTD[n-1]の第2の類似度と、を丸印で囲って強調する例を示している。
【0096】
<4.文書検索方法3>
本発明の一態様の文書検索方法では、用語データTmDに含まれる用語(文書データTDから抽出した用語)に対する重み付けを行うために、参照文書データRTDに含まれる文章を第1の文章31と第2の文章32に分類するが、この分類は、機械学習を用いて行ってもよい。例えば、Naive Bayes、Support Vector Machine、Conditional Random Fields(CRFs)等のアルゴリズムを用いて、重み付けを行うことができる。又は、重み付与部21に、ニューラルネットワークが構成された回路を設け、当該ニューラルネットワークを用いて重み付けを行うことができる。また、機械学習を行うために文書データTDから抽出した用語を分散表現に変換する場合は、同じ用語でも文脈に応じて異なる分散表現を得ることが可能な、Bidirectional Encoder Representations from Transformer(BERT)を用いてもよい。文書検索システム10が機械学習を行う機能を有する場合、例えば重み付与部21が機械学習を行う機能を有することができる。
【0097】
[学習]
学習方法の一例を説明する。まず、学習用参照文書データLRTDを用意する。学習用参照文書データLRTDは、参照文書データRTDと同じ種類の文書データとすることができる。つまり、学習用参照文書データLRTDは、例えば意見書とすることができる(
図7A参照)。
【0098】
次に、学習用参照文書データLRTDに含まれる文章にラベル付けを行う。ラベル付けを行った文章を含む学習用参照文書データLRTDを、学習用参照文書データLRTD
LBとする(
図7A参照)。
【0099】
例えば、学習用参照文書データLRTDに紐付けられている文書データ(例えば特許請求の範囲)に係る発明等の特徴を強く表す文章にラベルAを付け、それ以外の文章にラベルBを付ける。つまり、学習用参照文書データLRTDに含まれる文章を第1の文章と、第2の文章と、に区分し、第1の文章にラベルAを付け、第2の文章にラベルBを付けることができる。ラベル付けは、例えば段落ごとに行うことができる。つまり、例えば学習用参照文書データLRTDに紐付けられている文書データに係る発明等の特徴を強く表す文章が記載された段落にラベルAを付け、それ以外の段落にラベルBを付けることができる。
【0100】
なお、上記の方法でラベル付けを行う場合、ラベルAを付ける文章には、学習用参照文書データLRTDに紐付けられている文書データに含まれる用語を含むことが好ましい。これにより、用語データTmDに含まれる用語に対する重み付けを、正確に行うことができる。したがって、文書検索システム10が、類似度の算出を高い精度で行うことができる。なお、上記では学習用参照文書データLRTDに2種類のラベル(ラベルA、ラベルB)を付ける場合について説明しているが、3種類以上のラベルを付けてもよい。
【0101】
なお、学習用参照文書データLRTDと、当該学習用参照文書データLRTDに紐付けられている文書データと、の両方に含まれる用語を、所定の文字列等に置き換えてもよい。これにより、過学習を抑制することができる。
【0102】
次に、学習用参照文書データLRTDを、重み付与部21に入力する。重み付与部21は、出力データが学習用参照文書データLRTD
LBに近づくように学習を行う。具体的には、学習用参照文書データLRTDに対して付けられるラベルが、学習用参照文書データLRTD
LBに付けられたラベルに近づくように学習を行う。これにより、重み付与部21は、学習結果Pを取得することができる(
図7B参照)。例えば、重み付与部21が、ニューラルネットワークが構成された回路を有する場合、学習結果Pは、当該ニューラルネットワークに含まれる各ニューロンに対応する重み係数とすることができる。以上より、重み付与部21は、教師あり学習を行うことができるということができる。
【0103】
[文書データTDから抽出した用語に対する重み付け]
図2等に示すステップS03、又は
図6A等に示すステップS14において、上記の方法で学習を行った重み付与部21に参照文書データRTDを入力すると、学習結果Pを踏まえたラベル付けが行われる。例えば、文書データTDに係る発明等の特徴を強く表す文章にラベルAを付け、それ以外の文章にラベルBを付けることができる。ラベル付けを行った参照文書データRTDを、参照文書データRTD
LBとする(
図8参照)。以上より、参照文書データRTDが表す文書に含まれる文章を区分することができる。例えば、ラベルAが付された文章を第1の文章31とし、ラベルBが付された文章を第2の文章32とすることができる。
【0104】
その後、重み付与部21が、用語データTmDに含まれる各用語に対して重みを付ける。例えば、ラベルAを付した文章に含まれる用語の重みを、ラベルAを付した文章に含まれない用語の重みより大きくする。以上の方法により、文書データTDから抽出した用語に対する重み付けを行うことができる。
【0105】
<5.文書検索方法4>
ニューラルネットワークを用いることによる、用語データTmDに含まれる用語(文書データTDから抽出した用語)に対する重み付けの方法は、上記の方法に限らない。以下では、ニューラルネットワークの学習方法、及び文書データTDから抽出した用語に対する重み付けの方法の、上記の方法とは異なる例について説明する。なお、学習等のアルゴリズムは、上記の方法と同様に、Naive Bayes、Support Vector Machine、CRFs等を用いることができる。
【0106】
[学習]
ニューラルネットワークの学習方法の一例を説明する。まず、学習用文書データLTDを用意する。また、学習用文書データLTDに紐付けられている、学習用参照文書データLRTDを用意する。
【0107】
学習用文書データLTDは、文書データTDと同じ種類の文書データとすることができる。つまり、学習用文書データLTDは、例えば特許請求の範囲とすることができる。また、前述のように、学習用参照文書データLRTDは、参照文書データRTDと同じ種類の文書データとすることができる。つまり、学習用参照文書データLRTDは、例えば学習用文書データLTDに係る特許出願等に対する拒絶理由への反論が記載された意見書とすることができる。
【0108】
次に、学習用文書データLTDから用語を抽出することにより、学習用用語データLTmDを取得する(
図9参照)。学習用文書データLTDからの用語の抽出は、重み付与部21による文書データTDからの用語の抽出と同様の方法で行うことができる。例えば、学習用文書データLTDに対して形態素解析を行うことにより、用語を抽出する。抽出した用語のうち、例えば名詞を学習用用語データLTmDに含まれる用語とすることができ、例えばすべての名詞を学習用用語データLTmDに含まれる用語とすることができる。
【0109】
また、学習用参照文書データLRTDが表す文章の区分を行う。例えば、学習用参照文書データLRTDが表す文章を、第1の文章と、第2の文章と、に区分する。例えば、学習用参照文書データLRTDが表す文章のうち、学習用文書データLTDに係る発明等の特徴を強く表す文章をハイライトする。ハイライトした文章を第1の文章として、その他の文章を第2の文章とすることができる。ハイライトした文章が含まれる学習用参照文書データLRTDを、学習用参照文書データLRTD
HLとする(
図10A参照)。
図10Aに示す学習用参照文書データLRTD
HLでは、ハイライト部HLに含まれている文章を、ハイライトした文章としている。
【0110】
次に、学習用参照文書データLRTD
HLを基に、学習用用語データLTmDに含まれる用語に対してラベル付けを行う。例えば、学習用用語データLTmDに含まれる用語のうち、ハイライトした文章、つまり第1の文章に含まれる用語にラベルAを付け、その他の用語にラベルBを付けることができる。これにより、学習用用語データLTmDに含まれる用語のうち、学習用文書データLTDに係る発明等の特徴を強く表す文章に含まれる用語にラベルAを付け、それ以外の用語にラベルBを付けることができる。ラベル付けを行った用語を含む学習用用語データLTmDを、学習用用語データLTmD
LBとする(
図10B参照)。なお、上記では学習用用語データLTmDに含まれる用語に2種類のラベル(ラベルA、ラベルB)を付ける場合について説明しているが、3種類以上のラベルを付けてもよい。
【0111】
次に、学習用用語データLTmD、及び学習用参照文書データLRTDを、重み付与部21に入力する。重み付与部21は、出力データが学習用用語データLTmD
LB、及び学習用参照文書データLRTD
HLに近づくように学習を行う。具体的には、例えばニューラルネットワークに入力した学習用用語データLTmDに含まれる用語に対して付けられるラベルが、学習用用語データLTmD
LBに含まれる用語に対して付けられたラベルに近づくように学習を行う。これにより、重み付与部21は、学習結果Pを取得することができる(
図11参照)。例えば、重み付与部21が、ニューラルネットワークが構成された回路を有する場合、学習結果Pは、当該ニューラルネットワークに含まれる各ニューロンに対応する重み係数とすることができる。以上より、重み付与部21は、教師あり学習を行うことができる。
【0112】
[文書データTDから抽出した用語に対する重み付け]
図2等に示すステップS03、又は
図6A等に示すステップS14において、上記の方法で学習を行ったニューラルネットワークに用語データTmD、及び参照文書データRTDを入力すると、学習結果Pを踏まえたラベル付けが行われる。例えば、参照文書データRTDに含まれ、かつ文書データTDに係る発明等の特徴を強く表す文章に含まれる用語にラベルAを付け、それ以外の用語にラベルBを付けることができる。ラベル付けを行った用語を含む用語データを、用語データTmD
LBとする(
図12参照)。
【0113】
その後、重み付与部21が、用語データTmDLBに含まれる各用語に対して重みを付ける。例えば、ラベルAを付した用語の重みを、ラベルBを付した用語の重みより大きくする。以上の方法により、文書データTDから抽出した用語に対する重み付けを行うことができる。
【符号の説明】
【0114】
S01:ステップ、S02:ステップ、S03:ステップ、S04:ステップ、S11:ステップ、S12:ステップ、S13:ステップ、S14:ステップ、S15:ステップ、S16:ステップ、10:文書検索システム、11:入力部、15:記憶部、17:データベース、19:出力部、20:処理部、21:付与部、23:検索実行部、31:文章、32:文章