(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-30
(45)【発行日】2024-10-08
(54)【発明の名称】類型判別装置、類型判別システム、学習済みモデルの生成方法、類型判別方法及びプログラム
(51)【国際特許分類】
G06Q 50/18 20120101AFI20241001BHJP
G06F 16/35 20190101ALI20241001BHJP
【FI】
G06Q50/18 310
G06F16/35
(21)【出願番号】P 2021063544
(22)【出願日】2021-04-02
【審査請求日】2023-11-06
(73)【特許権者】
【識別番号】000006013
【氏名又は名称】三菱電機株式会社
(73)【特許権者】
【識別番号】504182255
【氏名又は名称】国立大学法人横浜国立大学
(73)【特許権者】
【識別番号】504258527
【氏名又は名称】国立大学法人 鹿児島大学
(74)【代理人】
【識別番号】100095407
【氏名又は名称】木村 満
(74)【代理人】
【識別番号】100131152
【氏名又は名称】八島 耕司
(74)【代理人】
【識別番号】100147924
【氏名又は名称】美恵 英樹
(74)【代理人】
【識別番号】100148149
【氏名又は名称】渡邉 幸男
(74)【代理人】
【識別番号】100181618
【氏名又は名称】宮脇 良平
(74)【代理人】
【識別番号】100174388
【氏名又は名称】龍竹 史朗
(72)【発明者】
【氏名】本橋 永至
(72)【発明者】
【氏名】真鍋 誠司
(72)【発明者】
【氏名】▲高▼橋 省吾
(72)【発明者】
【氏名】松井 重明
(72)【発明者】
【氏名】伊田 英紀
(72)【発明者】
【氏名】鈴井 智史
【審査官】田川 泰宏
(56)【参考文献】
【文献】特開2021-028758(JP,A)
【文献】国際公開第2022/153613(WO,A1)
【文献】特開2018-200621(JP,A)
【文献】特開2015-230570(JP,A)
【文献】特開2020-135644(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00-99/00
G06F 16/35
(57)【特許請求の範囲】
【請求項1】
判別対象の拒絶理由に関するテキストから、前記テキストの特徴情報を抽出する抽出手段と、
学習対象の複数の拒絶理由のそれぞれに関するテキストの特徴情報と、対応する拒絶理由の類型と、の間の関係を学習することにより生成された学習済みモデルに基づいて、前記抽出手段により抽出された前記特徴情報から前記判別対象の拒絶理由の類型を判別する類型判別手段と、を備える、
類型判別装置。
【請求項2】
前記抽出手段は、前記特徴情報として、前記テキストに含まれる形態素の出現数に関する情報を抽出する、
請求項1に記載の類型判別装置。
【請求項3】
前記類型判別手段は、前記判別対象の拒絶理由の条項を判別し、判別した前記条項に定められた複数の類型のうちから、前記判別対象の拒絶理由の類型に該当する類型を判別する、
請求項1又は2に記載の類型判別装置。
【請求項4】
前記学習済みモデルは、前記抽出手段により抽出された前記特徴情報の入力を受けて、前記判別対象の拒絶理由の類型が、候補となる複数の類型のそれぞれに該当する確からしさを示す数値を出力するモデルであり、
前記類型判別手段は、前記候補となる複数の類型のうちの、前記学習済みモデルにより出力された前記数値が最も高い類型が、前記判別対象の拒絶理由の類型に該当すると判別する、
請求項1から3のいずれか1項に記載の類型判別装置。
【請求項5】
前記学習済みモデルは、互いに異なる学習手法を用いて前記関係を学習することにより生成された複数の手法別モデルを含み、
前記類型判別手段は、前記複数の手法別モデルのうちから選択された手法別モデルに基づいて、前記判別対象の拒絶理由の類型を判別する、
請求項1から4のいずれか1項に記載の類型判別装置。
【請求項6】
前記類型判別手段は、前記複数の手法別モデルのうちから、候補となる類型ごとに判別精度が最も高い手法別モデルを選択し、選択した前記手法別モデルに基づいて、前記判別対象の拒絶理由の類型を判別する、
請求項5に記載の類型判別装置。
【請求項7】
前記抽出手段は、前記判別対象の拒絶理由が記載された書類のうちから、前記判別対象の拒絶理由以外の拒絶理由に関する記載と出願書類から引用された記載とを特定し、前記書類のうちの、特定された前記記載以外のテキストから、前記特徴情報を抽出する、
請求項1から6のいずれか1項に記載の類型判別装置。
【請求項8】
前記判別対象の拒絶理由は、記載不備の拒絶理由である、
請求項1から7のいずれか1項に記載の類型判別装置。
【請求項9】
前記類型判別手段により判別された前記類型を示す出力情報を出力する出力手段、を更に備える、
請求項1から8のいずれか1項に記載の類型判別装置。
【請求項10】
前記出力手段は、前記類型判別手段により複数の拒絶理由の類型が判別された場合、前記出力情報として、類型別の拒絶理由の件数を示す情報を出力する、
請求項9に記載の類型判別装置。
【請求項11】
請求項1から10のいずれか1項に記載の類型判別装置と、学習装置と、を備える類型判別システムであって、
前記学習装置は、
前記関係を学習することにより、前記学習済みモデルを生成する学習手段、を備え、
前記類型判別装置において、
前記類型判別手段は、前記学習手段により生成された前記学習済みモデルに基づいて、前記抽出手段により抽出された前記特徴情報から前記判別対象の拒絶理由の類型を判別する、
類型判別システム。
【請求項12】
前記学習装置は、
前記学習対象の複数の拒絶理由のそれぞれに関するテキストから、前記テキストの特徴情報を抽出する学習側抽出手段と、
前記学習側抽出手段により抽出された前記特徴情報と、対応する拒絶理由の類型と、が紐対応付けられた学習用データを生成する学習用データ生成手段と、を更に備え、
前記学習手段は、前記学習用データ生成手段により生成された前記学習用データに基づいて、前記関係を学習する、
請求項11に記載の類型判別システム。
【請求項13】
学習対象の複数の拒絶理由のそれぞれに関するテキストの特徴情報と、対応する拒絶理由の類型と、が紐対応付けられた学習用データを生成し、
生成された前記学習用データに基づいて、前記学習対象の複数の拒絶理由のそれぞれに関するテキストの特徴情報と、対応する拒絶理由の類型と、の間の関係を学習することにより、学習済みモデルを生成する、
学習済みモデルの生成方法。
【請求項14】
学習対象の複数の拒絶理由のそれぞれに関するテキストの特徴情報と、対応する拒絶理由の類型と、の間の関係を学習することにより生成された学習済みモデルに基づいて、判別対象の拒絶理由に関するテキストの特徴情報から前記判別対象の拒絶理由の類型を判別する、
類型判別方法。
【請求項15】
コンピュータを、
判別対象の拒絶理由に関するテキストから、前記テキストの特徴情報を抽出する抽出手段、
学習対象の複数の拒絶理由のそれぞれに関するテキストの特徴情報と、対応する拒絶理由の類型と、の間の関係を学習することにより生成された学習済みモデルに基づいて、前記抽出手段により抽出された前記特徴情報から前記判別対象の拒絶理由の類型を判別する類型判別手段、として機能させる、
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、類型判別装置、類型判別システム、学習済みモデルの生成方法、類型判別方法及びプログラムに関する。
【背景技術】
【0002】
特許をはじめとする産業財産権の取得に関する業務を支援する技術が知られている。例えば、特許文献1は、特許文書に含まれる重要度の高い単語に関する情報を分析してユーザに提示する文書分析支援装置を開示している。また、特許文献2は、特許文書中の単語又は単語の組み合わせの理解を支援するために、請求項で使っている単語又は単語の組み合わせが想定している具体例を提示する例示装置を開示している。
【先行技術文献】
【特許文献】
【0003】
【文献】特開2003-248695号公報
【文献】特開2011-96149号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
産業財産権の取得に関する業務を効率化するためには、出願書類に対して通知された拒絶理由を把握し、課題を発見して適切な対策を講じることが必要である。しかしながら、拒絶理由が記載された文書には、拒絶理由の条項は明記されているが、拒絶理由が具体的にどの類型に該当するかは明記されていない。そのため、拒絶理由の内容を人が読み取ってその類型を判断しなければならず、人手による労力を必要としている。このような状況に鑑み、拒絶理由の分析に要する労力を軽減することが求められている。
【0005】
本開示は、上記のような問題点を解決するためになされたものであり、拒絶理由の分析に要する労力を軽減することが可能な類型判別装置等を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するために、本開示に係る類型判別装置は、
判別対象の拒絶理由に関するテキストから、前記テキストの特徴情報を抽出する抽出手段と、
学習対象の複数の拒絶理由のそれぞれに関するテキストの特徴情報と、対応する拒絶理由の類型と、の間の関係を学習することにより生成された学習済みモデルに基づいて、前記抽出手段により抽出された前記特徴情報から前記判別対象の拒絶理由の類型を判別する類型判別手段と、を備える。
【発明の効果】
【0007】
本開示では、類型判別装置が、判別対象の拒絶理由に関するテキストから特徴情報を抽出し、学習対象の複数の拒絶理由のそれぞれに関するテキストの特徴情報と、対応する拒絶理由の類型と、の間の関係を学習することにより生成された学習済みモデルに基づいて、特徴情報から判別対象の拒絶理由の類型を判別する。これにより、拒絶理由の分析に要する労力を軽減することができる。
【図面の簡単な説明】
【0008】
【
図1】実施の形態1に係る類型判別システムの全体構成を示す図
【
図2】実施の形態1に係る学習装置のハードウェア構成を示すブロック図
【
図3】実施の形態1に係る学習装置の機能的な構成を示すブロック図
【
図4】実施の形態1に係る拒絶理由通知書の例を示す図
【
図5】実施の形態1に係る拒絶理由の類型の例を示す図
【
図7】実施の形態1に係る学習用データの例を示す図
【
図8】実施の形態1に係る学習済みモデルの構成を示す図
【
図9】実施の形態1に係る類型判別装置のハードウェア構成を示すブロック図
【
図10】実施の形態1に係る類型判別装置の機能的な構成を示すブロック図
【
図11】実施の形態1に係る類型判別装置により判別された類型の出力例を示す図
【
図12】実施の形態1に係る類型判別装置により判別された類型別の拒絶理由の件数の例を示す図
【
図13】
図12に示した類型別の拒絶理由の件数をレーダーチャートで表現した図
【
図14】実施の形態1に係る学習装置により実行される学習済みモデルの生成処理の流れを示すフローチャート
【
図15】実施の形態1に係る類型判別装置により実行される類型判別処理の流れを示すフローチャート
【
図16】実施の形態2に係る学習済みモデルの構成を示す図
【
図17】実施の形態2に係る判別精度データの例を示す図
【発明を実施するための形態】
【0009】
以下、実施の形態について、図面を参照しながら詳細に説明する。なお、図中同一又は相当部分には同一符号を付す。
【0010】
(実施の形態1)
図1に、実施の形態1に係る類型判別システム1の全体構成を示す。類型判別システム1は、拒絶理由通知書に記載された拒絶理由の類型を、自然言語処理と機械学習とを用いて判別するシステムである。拒絶理由通知書は、特許出願書類が特許要件を満たしていない場合にその理由を記載した文書である。
【0011】
図1に示すように、類型判別システム1は、学習装置10と、類型判別装置20と、を備える。学習装置10は、拒絶理由に関するテキストの特徴情報と拒絶理由の類型との関係を学習する装置である。類型判別装置20は、学習装置10による学習結果に基づいて、判別対象となる拒絶理由通知書に記載された拒絶理由の類型を判別する装置である。学習装置10及び類型判別装置20は、いずれも、パーソナルコンピュータ、サーバ、タブレット等の情報処理装置である。
【0012】
図2に示すように、学習装置10は、制御部11と、記憶部12と、操作受付部13と、表示部14と、通信部15と、を備える。
【0013】
制御部11は、CPU(Central Processing Unit)、ROM(Read Only Memory)及びRAM(Random Access Memory)を備える。CPUは、中央処理装置、中央演算装置、プロセッサ、マイクロプロセッサ、マイクロコンピュータ等とも呼び、学習装置10の制御に係る処理及び演算を実行する中央演算処理部として機能する。制御部11において、CPUは、ROMに格納されているプログラム及びデータを読み出し、RAMをワークエリアとして用いて、学習装置10を統括制御する。
【0014】
記憶部12は、フラッシュメモリ、EPROM(Erasable Programmable ROM)、EEPROM(Electrically Erasable Programmable ROM)等の不揮発性の半導体メモリを備えており、いわゆる二次記憶装置又は補助記憶装置としての役割を担う。記憶部12は、制御部11が各種処理を行うために使用するプログラム及びデータを記憶する。また、制御部11が各種処理を行うことにより生成又は取得するデータを記憶する。
【0015】
操作受付部13は、キーボード、マウス、スイッチ、タッチパッド、タッチパネル等の入力デバイスを備えており、ユーザから操作を受け付ける。ユーザは、操作受付部13を操作することによって、様々な指示を学習装置10に入力することができる。操作受付部13は、ユーザから入力された操作指示を受け付けると、受け付けた操作指示を制御部11に送信する。
【0016】
表示部14は、LCD(Liquid Crystal Display)パネル、有機EL(Electro-Luminescence)等の表示デバイスを備える。表示部14は、図示しない表示駆動回路によって駆動され、制御部11による制御のもとで様々な画像を表示する。
【0017】
通信部15は、学習装置10が外部の装置と通信するための通信インタフェースを備える。例えば、通信部15は、外部の装置との間で、無線LAN(Local Area Network)、有線LAN、USB(Universal Serial Bus)等の周知の通信規格に則って通信する。
【0018】
次に、
図3を参照して、学習装置10の機能的な構成について説明する。
図3に示すように、学習装置10は、機能的に、抽出部110と、学習用データ生成部120と、学習部130と、を備える。これらの各機能は、ソフトウェア、ファームウェア、又は、ソフトウェアとファームウェアとの組み合わせによって実現される。ソフトウェア及びファームウェアは、プログラムとして記述され、ROM又は記憶部12に格納される。そして、CPUが、ROM又は記憶部12に記憶されたプログラムを実行することによって、これらの各機能を実現する。
【0019】
また、学習装置10は、データベース50を備える。データベース50は、記憶部12の適宜の記憶領域に構築される。データベース50は、複数の拒絶理由通知書51を記憶している。複数の拒絶理由通知書51のそれぞれは、特許出願書類に対して通知された拒絶理由を記載した文書データであって、学習装置10において学習対象の拒絶理由を記載した文書データである。複数の拒絶理由通知書51のそれぞれに記載された拒絶理由の類型は既知である。
【0020】
図4に、拒絶理由通知書51の例を示す。
図4に示すように、拒絶理由通知書51は、拒絶理由の概要部分と、拒絶理由の詳細部分と、を含んでいる。拒絶理由の概要部分には、出願番号、起案日、審査官名等の諸情報に加えて、その拒絶理由通知書51において適用される拒絶理由の条項が記載される。拒絶理由の詳細部分には、より具体的な拒絶理由の説明が記載される。
【0021】
図4の例では、拒絶理由の条項として、「理由」の欄の太線で囲った箇所に、明確性の拒絶理由を規定する「特許法第36条第6項第2号」と、進歩性の拒絶理由を規定する「特許法第29条第2項」が記載されている。拒絶理由の条項は、これら以外にも、新規性の拒絶理由を規定する「特許法第29条第1項」、サポート要件の拒絶理由を規定する「特許法第36条第6項第1号」、実施可能要件又は委任省令要件の拒絶理由を規定する「特許法第36条第4項第1号」等がある。
【0022】
このような拒絶理由のうち、「特許法第36条第4項第1号」、「特許法第36条第6項第1号」、「特許法第36条第6項第2号」等の条項に係る拒絶理由は、記載不備の拒絶理由と呼ばれる。類型判別システム1は、記載不備の拒絶理由を判別対象として、その類型を判別する。
【0023】
拒絶理由は、条項ごとにいくつかの類型に分類される。
図5に、記載不備の拒絶理由の類型の例を示す。
図5に示すように、記載不備の拒絶理由のうちの、第36条第4項第1号の拒絶理由は8個の類型に分類され、第36条第6号第1号の拒絶理由は4個の類型に分類され、第36条第6号第2項の拒絶理由は8個の類型に分類される。
【0024】
拒絶理由通知書51を通知された出願人は、効率良く特許を取得するためには、拒絶理由通知書51に記載された拒絶理由を把握して課題を発見し、適切な対策を講じることが必要である。しかしながら、拒絶理由通知書51には拒絶理由の条項は明記されているが、その拒絶理由が具体的に
図5に示した複数の類型のうちのどの類型に該当するかは明記されていない。そのため、出願人は、拒絶理由通知書51の内容から拒絶理由が該当する類型を判断しなければならない。
【0025】
しかしながら、同一の類型であっても拒絶理由通知書51に記載される表現は多岐に渡るため、拒絶理由の分類を拒絶理由通知書51の文章から正確に判別することは容易ではない。年間の出願件数が少ない企業では、拒絶理由の類型を手動で分類しても大きな労力を必要としないが、多くの出願を行う企業では、人手による分類は多大な労力を必要とする。そのため、拒絶理由の類型を自動的に判別することができれば、特許の取得に関する業務を効率化することが可能となる。特許庁の審査官は、特許・実用新案審査基準に基づいて審査を行い、拒絶理由通知書51においてはこの審査基準に記載された拒絶理由の各類型と関連のある用語が用いられることが多いと考えられる。そのため、拒絶理由通知書51に含まれるテキストと拒絶理由の類型との間に一定の相関関係が存在することが推認される。そこで、この相関関係に着目し、類型判別システム1は、機械学習の手法を用いることで拒絶理由の類型を自動的に判別する。
【0026】
図3に戻って、学習装置10において、抽出部110は、データベース50に記憶されている複数の拒絶理由通知書51のそれぞれに記載された拒絶理由に関するテキストから、そのテキストの特徴情報を取得する。ここで、拒絶理由に関するテキストの特徴情報は、そのテキストの特徴を示す情報であって、その拒絶理由の類型を判別するために必要となる情報である。
【0027】
一般的に、拒絶理由通知書51における拒絶理由の概要を記載した部分は定型的な記載であるのに対して、拒絶理由通知書51における拒絶理由の詳細を記載した部分は個々の案件ごとに表現に特徴が出る。そのため、抽出部110は、拒絶理由通知書51における拒絶理由の詳細を記載した部分におけるテキストの特徴情報を抽出する。
【0028】
具体的に説明すると、抽出部110は、データベース50に記憶されている複数の拒絶理由通知書51のそれぞれに記載されているテキストデータを読み込む。そして、抽出部110は、読み込んだテキストデータのうちから、学習に対する関係性が薄い記載を特定する。学習に対する関係性が薄い記載は、具体的には、学習対象の拒絶理由以外の拒絶理由に関する記載と、特許出願書類から引用された記載と、が該当する。
【0029】
第1に、学習対象の拒絶理由以外の拒絶理由に関する記載は、新規性、進歩性等のような、記載不備以外の拒絶理由に関する記載である。例えば、
図4に示した拒絶理由通知書51において、「理由2(進歩性)について」以下の記載がこれに該当する。抽出部110は、「新規性」、「進歩性」等の記載不備以外の拒絶理由を示す語句をキーワードとして、読み込んだテキストデータのうちから、記載不備以外の拒絶理由に関する記載を特定する。
【0030】
第2に、出願書類から引用された記載は、出願書類に含まれる明細書、特許請求の範囲等の記載がそのまま引用された記載である。このような引用記載は拒絶理由の類型判別に寄与する可能性は低い。そのため、抽出部110は、引用記載が有る場合、それを特徴情報の抽出対象から除外する。引用記載は、拒絶理由通知書51において括弧書きで囲われて記載される。抽出部110は、括弧書きをキーワードとして、読み込んだテキストデータのうちから、引用記載を特定する。
【0031】
このようにして学習に対する関係性が薄い記載を特定すると、抽出部110は、読み込んだテキストデータから特定した学習に対する関係性が薄い記載を削除する。そして、抽出部110は、拒絶理由通知書51のうちの、学習に対する関係性が薄い記載以外のテキストを抽出対象のテキストと決定し、抽出対象のテキストから特徴情報を抽出する。
【0032】
抽出部110は、特徴情報として、抽出対象のテキストに含まれる形態素の出現数に関する情報を抽出する。ここで、形態素とは、テキストを構成する表現要素のうちの、意味を持つ最小単位である。例えば、「発明は明確でない」とのテキストは、「発明」、「は」、「明確」、「で」、「ない」という5つの形態素に分解される。
【0033】
抽出部110は、抽出対象のテキストに対して形態素解析を行うことにより、抽出対象のテキストを形態素の単位に分解する。そして、抽出部110は、形態素の出現数に関する情報として、例えば
図6に示すような形態素行列を生成する。
【0034】
図6に示すように、形態素行列は、列の要素として、抽出対象のテキストに含まれる各形態素の出現数を有する。例えば、
図6に示す形態素行列は、抽出対象のテキストにおいて「発明」という形態素は5回出現し、「は」という形態素は10回出現し、「明確」という形態素は2回出現し、「で」という形態素は14回出現し、「ない」という形態素は3回出現することを示している。
【0035】
形態素行列の行の数は、1つの拒絶理由通知書51に含まれる記載不備の拒絶理由の条項の数に相当する。1つの拒絶理由通知書51に含まれる記載不備の拒絶理由の条項の数が1つである場合、形態素行列の行の数は1つになる。これに対して、1つの拒絶理由通知書51に含まれる記載不備の拒絶理由の条項の数が複数である場合、形態素行列の行の数は複数になる。
【0036】
抽出部110は、抽出対象のテキストに含まれる各形態素の出現数をカウントし、カウントした出現数を列の要素として有する形態素行列を生成する。抽出対象のテキストに1つの条項が含まれる場合、抽出部110は、
図6に示したような1行の形態素行列を生成する。これに対して、抽出対象のテキストに複数の条項が含まれる場合、抽出部110は、条項ごとに形態素の出現数をカウントし、複数行の形態素行列を生成する。
【0037】
抽出部110は、抽出対象のテキストに複数の条項が含まれるか否かを、抽出対象のテキストを解析することにより判別する。具体的には、拒絶理由の概要部分に「特許法第36条第4項第1号」、「特許法第36条第6項第1号」、「特許法第36条第6項第2号」等の条項が明記されている。そのため、抽出部110は、このような条項の記載から条項の数を判別することができる。また、拒絶理由の詳細部分において、条項毎に拒絶理由を説明する項目が分けられている。そのため、抽出部110は、拒絶理由の詳細部分のテキストを解析することによっても、条項の数を判別することができる。
【0038】
抽出部110は、このような形態素行列を生成する処理を、データベース50に記憶されている複数の拒絶理由通知書51のそれぞれに対して実行する。これにより、抽出部110は、拒絶理由に関するテキストの特徴情報として、1つの拒絶理由通知書51につき1つの形態素行列を生成する。抽出部110は、制御部11が記憶部12と協働することにより実現される。抽出部110は、学習側抽出手段の一例である。
【0039】
図3に戻って、学習用データ生成部120は、抽出部110により抽出された特徴情報に基づいて、学習用データ60を生成する。学習用データ60は、拒絶理由に関するテキストの特徴情報と、拒絶理由の類型と、の関係を学習するためのデータである。
【0040】
図7に、学習用データ60の例を示す。
図7に示すように、学習用データ60は、学習対象の複数の拒絶理由のそれぞれに関するテキストの特徴情報である形態素行列と、対応する拒絶理由の類型と、が紐付けられたデータである。
図7では、理解を容易にするために、データベース50に記憶されている複数の拒絶理由通知書51から生成された複数の形態素行列を、行ごと、すなわち拒絶理由の条項ごとに、1,2,3,…の通し番号で表している。
【0041】
学習用データ生成部120は、データベース50に記憶されている複数の拒絶理由通知書51のそれぞれから生成された形態素行列に対して、拒絶理由の条項ごとに通し番号を付ける。そして、学習用データ生成部120は、各形態素行列に、各形態素行列の生成元である拒絶理由の類型の情報を紐付ける。ここで、データベース50に記憶されている複数の拒絶理由通知書51のそれぞれに記載された拒絶理由の類型は、何らかの方法で予め知られている。
【0042】
このようにして、学習用データ生成部120は、学習用データ60を生成する。学習用データ生成部120は、制御部11が記憶部12と協働することにより実現される。学習用データ生成部120は、学習用データ生成手段の一例である。
【0043】
図3に戻って、学習部130は、学習用データ生成部120により生成された学習用データ60に基づいて、学習対象の複数の拒絶理由のそれぞれに関するテキストの特徴情報と、対応する拒絶理由の類型と、の間の関係を学習する。これにより、学習部130は、学習済みモデル70を生成する。学習済みモデル70は、判別対象の拒絶理由に関するテキストの特徴情報の入力に対して、その判別対象の拒絶理由の類型の判別結果を出力するモデルである。
【0044】
学習部130は、拒絶理由に関するテキストから抽出された形態素行列を特徴量として用いて、また学習用データ60を教師データとして用いて、機械学習を実行する。学習部130は、機械学習の手法として、2値判別が可能な教師あり学習の手法を用いる。機械学習の手法として、例えば、(1)ロジスティック回帰、(2)ニューラルネットワーク、(3)決定木、(4)バギング、(5)ランダムフォレスト、(6)XGBoost、(7)スタッキングが挙げられる。
【0045】
ここで、上記に掲げた各手法の概略について説明する。
(1)ロジスティック回帰とは、目的変数がベルヌーイ分布に従い、連結関数にロジット関数を使用する一般化線形モデルである。
(2)ニューラルネットワークとは、人間の脳内にある神経回路網を人工ニューロンという数式的なモデルで表現する手法である。
(3)決定木とは、特定の特徴がよく現れるようなデータの集合を発見し、その分類ルールを生成する手法である。
(4)バギングとは、アンサンブル学習の一種であり、ブートストラップサンプリングにより、独立に多数の弱学習器を作り、多数決により判別する手法である。
(5)ランダムフォレストとは、バギングと同じアンサンブル学習の一種であるが、各学習器で使用する特徴量をあらかじめ決められた数だけランダムに選択する手法である。
(6)XGBoostとは、勾配ブースティングと呼ばれる手法であって、弱学習器を逐次的に構築する手法である。
(7)スタッキングとは、複数の機械学習手法により予測値を求め、その予測値を入力値として最終的なモデルを構築する手法である。
【0046】
学習部130は、このような手法のうちの1つを用いて学習用データ60を学習し、学習済みモデル70を生成する。なお、これらの機械学習の手法は一例であって、2値判別が可能な教師ありの機械学習の手法であれば、他の手法を用いることもできる。
【0047】
より詳細には、
図8に示すように、学習済みモデル70は、複数の類型別モデル72を含んでいる。学習部130は、学習済みモデル70として、複数の類型別モデル72を生成する。複数の類型別モデル72のそれぞれは、目的変数として2値をとるモデルであって、判別対象の拒絶理由の類型が特定の類型に該当するか否かを示す数値を出力するモデルである。
【0048】
具体的に説明すると、複数の類型別モデル72のそれぞれは、形態素行列の入力を受けて、その形態素行列の生成元の拒絶理由の類型が、
図5に示した複数の類型のうちの対応する類型に該当することの確からしさを示す数値を出力する。各類型別モデル72から出力される数値は、判別対象の拒絶理由の類型が対応する類型に該当する可能性が高い場合に、より高い値となる。
図8の例では、第36条第4項第1号の第1類型に対する数値が他の類型に対する数値よりも高いため、判別対象の拒絶理由の類型が第36条第4項第1号の第1類型に該当する可能性が高いことを示している。
【0049】
学習部130は、学習用データ60を類型ごとに分け、類型ごとに分けられたデータを用いて各類型別モデル72を生成する。具体的に説明すると、学習部130は、ある類型の拒絶理由に関するテキストから生成された形態素行列の入力に対して、判別結果がその類型となる確率が高くなるように、その類型に対応する類型別モデル72のパラメータを調整する。
【0050】
学習部130は、このような処理を、判別対象の拒絶理由の類型の候補となる複数の類型のそれぞれについて実行することにより、候補となる複数の類型のそれぞれについて類型別モデル72を生成する。
図5の例では、記載不備の拒絶理由の類型は3つの条項で合わせて20個であるため、学習部130は、学習済みモデル70として、20個の類型別モデル72を生成する。学習部130は、制御部11が記憶部12と協働することにより実現される。学習部130は、学習手段の一例である。
【0051】
次に、類型判別装置20の構成について説明する。
図9に示すように、類型判別装置20は、制御部21と、記憶部22と、操作受付部23と、表示部24と、通信部25と、を備える。
【0052】
制御部21は、CPU、ROM及びRAMを備える。CPUは、中央処理装置、中央演算装置、プロセッサ、マイクロプロセッサ、マイクロコンピュータ等とも呼び、類型判別装置20の制御に係る処理及び演算を実行する中央演算処理部として機能する。制御部21において、CPUは、ROMに格納されているプログラム及びデータを読み出し、RAMをワークエリアとして用いて、類型判別装置20を統括制御する。
【0053】
記憶部22は、フラッシュメモリ、EPROM、EEPROM等の不揮発性の半導体メモリを備えており、いわゆる二次記憶装置又は補助記憶装置としての役割を担う。記憶部22は、制御部21が各種処理を行うために使用するプログラム及びデータを記憶する。また、制御部21が各種処理を行うことにより生成又は取得するデータを記憶する。
【0054】
操作受付部23は、キーボード、マウス、スイッチ、タッチパッド、タッチパネル等の入力デバイスを備えており、ユーザから操作を受け付ける。ユーザは、操作受付部23を操作することによって、様々な指示を類型判別装置20に入力することができる。操作受付部23は、ユーザから入力された操作指示を受け付けると、受け付けた操作指示を制御部21に送信する。
【0055】
表示部24は、LCDパネル、有機EL等の表示デバイスを備える。表示部24は、図示しない表示駆動回路によって駆動され、制御部21による制御のもとで様々な画像を表示する。
【0056】
通信部25は、類型判別装置20が外部の装置と通信するための通信インタフェースを備える。例えば、通信部25は、外部の装置との間で、無線LAN、有線LAN、USB等の周知の通信規格に則って通信する。
【0057】
次に、
図10を参照して、類型判別装置20の機能的な構成について説明する。
図10に示すように、類型判別装置20は、機能的に、抽出部210と、類型判別部220と、出力部230と、を備える。これらの各機能は、ソフトウェア、ファームウェア、又は、ソフトウェアとファームウェアとの組み合わせによって実現される。ソフトウェア及びファームウェアは、プログラムとして記述され、ROM又は記憶部12に格納される。そして、CPUが、ROM又は記憶部12に記憶されたプログラムを実行することによって、これらの各機能を実現する。
【0058】
抽出部210は、拒絶理由通知書52に記載された判別対象の拒絶理由に関するテキストから、そのテキストの特徴情報を取得する。類型判別装置20における抽出部210は、上述した学習装置10における抽出部110と同様の機能を有する。具体的には、学習装置10における抽出部110は、データベース50に記憶されている複数の拒絶理由通知書51から、学習対象の拒絶理由に関するテキストの特徴情報を抽出した。これに対して、類型判別装置20における抽出部210は、拒絶理由通知書52から、判別対象の拒絶理由に関するテキストの特徴情報を抽出する。
【0059】
拒絶理由通知書52は、判別対象となる類型が未知の拒絶理由を記載した文書データである。拒絶理由通知書52のデータは、例えば、通信部25を介して外部から取得されて、予め記憶部22に記憶される。
【0060】
抽出部210は、判別対象の拒絶理由を記載した拒絶理由通知書52のテキストデータを読み込む。そして、抽出部210は、読み込んだテキストデータのうちから、類型判別に対する関係性が薄い記載を特定する。類型判別に対する関係性が薄い記載は、学習に対する関係性が薄い記載と同様に、判別対象の拒絶理由以外の拒絶理由に関する記載と、出願書類から引用された記載と、が該当する。類型判別に対する関係性が薄い記載を特定する方法は、学習に対する関係性が薄い記載を特定する方法と同様である。
【0061】
類型判別に対する関係性が薄い記載を特定すると、抽出部210は、読み込んだテキストデータから特定した類型判別に対する関係性が薄い記載を削除する。そして、抽出部210は、拒絶理由通知書52のうちの、類型判別に対する関係性が薄い記載以外のテキストを抽出対象のテキストと決定し、抽出対象のテキストから特徴情報を抽出する。
【0062】
抽出部210は、特徴情報として、抽出対象のテキストに含まれる形態素の出現数に関する情報である形態素行列を取得する。形態素行列の生成方法は、学習装置10の抽出部110において説明した方法と同様である。
【0063】
具体的に説明すると、抽出部210は、抽出対象のテキストに対して形態素解析を行うことにより、抽出対象のテキストを形態素の単位に分解する。そして、抽出部210は、形態素の出現数に関する情報として、例えば
図6に示すような形態素行列を生成する。このとき、抽出対象のテキストの中に複数の条項が含まれる場合、抽出部210は、条項毎に形態素の出現数をカウントし、複数行の形態素行列を生成する。抽出部210は、制御部21が記憶部22と協働することにより実現される。抽出部210は、抽出手段又は判別側抽出手段の一例である。
【0064】
類型判別部220は、学習装置10により生成された学習済みモデル70に基づいて、抽出部210により抽出された特徴情報から判別対象の拒絶理由の類型を判別する。学習済みモデル70は、学習装置10において生成された後、通信部25による通信を介して、又は外部記録媒体を経由して、記憶部22に記憶される。
【0065】
具体的に説明すると、類型判別部220は、判別対象の拒絶理由の条項を判別する。拒絶理由の条項は、拒絶理由通知書52における拒絶理由の概要部分において、「第36条第4項第1号」、「第36条第6項第1号」等のように記載されている。そのため、類型判別部220は、拒絶理由通知書52のテキストデータを解析することにより、拒絶理由通知書52に記載された記載不備の拒絶理由の条項を判別する。
【0066】
条項を判別すると、類型判別部220は、判別した条項に定められた複数の類型のうちから、判別対象の拒絶理由の類型に該当する類型を判別する。例えば判別した条項が「第36条第4項第1号」である場合、
図5に示したように、「第36条第4項第1号」には8個の類型が定められている。この場合、類型判別部220は、これら8個の類型を候補として、判別対象の拒絶理由の類型に該当する類型を判別する。
【0067】
具体的に説明すると、類型判別部220は、判別対象の拒絶理由に関するテキストから抽出された特徴情報である形態素行列を、学習済みモデル70に入力する。学習済みモデル70は、上述したように、複数の類型別モデル72を含んでいる。そのため、学習済みモデル70は、入力された形態素行列に対して、判別対象の拒絶理由の類型が、候補となる複数の類型のそれぞれに該当する確からしさを示す数値を出力する。
【0068】
候補となる複数の類型の中で、学習済みモデル70により出力された数値が最も高い類型は、判別対象の拒絶理由の類型に該当する可能性が最も高い。そのため、類型判別部220は、学習済みモデル70により出力された、候補となる複数の類型のそれぞれに該当する確からしさを示す数値を比較する。比較の結果、類型判別部220は、候補となる複数の類型のうちの、学習済みモデル70により出力された数値が最も高い類型が、判別対象の拒絶理由の類型に該当すると判別する。
【0069】
なお、類型判別部220による判別される類型は1つとは限らない。例えば、2以上の類型別モデル72から出力された数値が同じである場合、類型判別部220は、判別対象の拒絶理由の類型が2以上の類型に該当すると判別する。また、全ての類型別モデル72から出力された数値が予め定められた基準値よりも小さい場合、類型判別部220は、判別対象の拒絶理由の類型がどの類型にも該当しないと判別する。なお、2以上の類型別モデル72から出力された数値が基準値以上である場合、類型判別部220は、判別対象の拒絶理由の類型が2以上の類型に該当すると判別しても良い。類型判別部220は、制御部21が記憶部22と協働することにより実現される。類型判別部220は、類型判別手段の一例である。
【0070】
出力部230は、類型判別部220により判別された類型を示す出力情報を出力する。出力部230は、例えば
図11に示すように、出力情報として、類型判別部220により判別された拒絶理由の類型を示す画像を生成し、表示部24に表示させる。ユーザは、表示部24を確認することで、判別対象の拒絶理由の類型が何であるかを知ることができる。
【0071】
或いは、出力部230は、類型判別部220により判別された類型を示す出力情報を、通信部25を介して外部の装置に出力し、外部の装置を介してユーザに確認させても良い。出力部230は、制御部21が表示部24又は通信部25と協働することにより実現される。出力部230は、出力手段の一例である。
【0072】
また、出力部230は、類型判別部220により複数の拒絶理由の類型が判別された場合、出力情報として、類型別の拒絶理由の件数を示す情報を出力する。具体的に説明すると、複数の拒絶理由が判別対象である場合、抽出部210及び類型判別部220は、複数の拒絶理由のそれぞれに対して上述した処理を実行する。これにより、類型判別部220は、複数の拒絶理由のそれぞれの類型を判別する。そして、出力部230は、類型判別部220により判別された複数の拒絶理由の類型の件数を、例えば
図12に示すように類型別に集計する。
図12は、一例として、1つの企業における1年間に受領した全拒絶理由通知書について、類型判別部220による類型判別結果を、類型別に集計した結果を示している。
【0073】
出力部230は、このような拒絶理由の類型別の件数を、レーダーチャート、グラフ等に表現した出力情報を生成する。一例として、
図13に示すように、出力部230は、記載不備の拒絶理由における計20個の類型を円周方向に並べたレーダーチャートを生成し、レーダーチャート上に、
図12に示した各類型の件数を表現する。出力部230は、このように拒絶理由の類型別の件数を可視可して表現した出力情報を、表示部24又は通信部25を介して出力する。
【0074】
図12及び
図13の例では、第36条第6項第1号の第1類型と第36条第6項第2号の第1類型及び第2類型との件数が、他の類型に比べて多い。そのため、この企業では当該部分の改善が必要であることが分かる。また、このような集計を企業内の事業所別又は特許事務所別に行い、事業所ごと又は特許事務所ごとの拒絶理由の傾向を調べても良い。これにより、事業所ごとに対策を講じることができる。また、特許事務所毎の長短所を把握し、出願書類の品質を向上させるための指針を与えることができる。
【0075】
以上のように構成される類型判別システム1によって実行される処理の流れについて、
図14及び
図15に示すフローチャートを参照して説明する。
【0076】
第1に、
図14を参照して、学習装置10により実行される学習済みモデルの生成処理について説明する。
図14に示す学習済みモデルの生成処理を実行することにより、学習済みモデルの生成方法が実現される。学習装置10の制御部11は、データベース50に学習対象となる複数の拒絶理由通知書51が記憶されている状態において、操作受付部13を介してユーザの指示を受け付けると、
図14に示す学習用データ生成処理を開始する。
【0077】
学習済みモデルの生成処理を開始すると、制御部11は、データベース50に記憶されている複数の拒絶理由通知書51のうちから1つを選択する(ステップS101)。拒絶理由通知書51を1つ選択すると、制御部11は、選択した拒絶理由通知書51のテキストデータを読み込む(ステップS102)。
【0078】
テキストデータを読み込むと、制御部11は、読み込んだテキストデータから、学習に対する関係性が薄い記載を削除する(ステップS103)。具体的に説明すると、制御部11は、読み込んだテキストデータから、記載不備以外の拒絶理由に関する記載と出願書類から引用された記載とを特定し、特定した記載を読み込んだテキストデータから削除する。
【0079】
学習に対する関係性が薄い記載を削除すると、制御部11は、記載不備の拒絶理由に関するテキストの特徴情報として、形態素行列を生成する(ステップS104)。具体的に説明すると、制御部11は、抽出対象のテキストに含まれる各形態素の出現数をカウントし、カウントした出現数を要素として有する形態素行列を生成する。
【0080】
形態素行列を生成すると、制御部11は、学習対象となる全ての拒絶理由通知書51を選択したか否かを判定する(ステップS105)。未選択の拒絶理由通知書51が残っている場合(ステップS105;NO)、制御部11は、処理をステップS101に戻す。そして、制御部11は、ステップS101において、データベース50に記憶されている複数の拒絶理由通知書51のうちから未選択の拒絶理由通知書51を1つ選択して、ステップS102~S105の処理を繰り返す。これにより、制御部11は、データベース50に記憶されている複数の拒絶理由通知書51のそれぞれに対して、記載不備の拒絶理由に関するテキストの特徴を示す情報である形態素行列を生成する。
【0081】
最終的に、全ての拒絶理由通知書51を選択し終えると(ステップS105;YES)、制御部11は、データベース50に記憶されている複数の拒絶理由通知書51から生成された形態素行列を、条項ごとに、対応する拒絶理由の類型と紐付ける。これにより、制御部11は、例えば
図7に示したような学習用データ60を生成する(ステップS106)。
【0082】
学習用データ60を生成すると、制御部11は、生成した学習用データ60を用いて形態素行列と拒絶理由の類型との間の関係を実行することにより、学習済みモデル70を生成する(ステップS107)。具体的に説明すると、制御部11は、判別対象の拒絶理由の類型の候補となる複数の類型のそれぞれについて、判別対象の拒絶理由の類型が該当するか否かを示す数値を出力する類型別モデル72を生成する。以上により、
図14に示した学習済みモデルの生成処理は終了する。
【0083】
第2に、
図15を参照して、類型判別装置20により実行される類型判別処理について説明する。類型判別装置20の制御部21は、
図14に示した処理により生成された学習済みモデル70が記憶部22に記憶されている状態において、操作受付部23を介してユーザの指示を受け付けると、
図15に示す類型判別処理を開始する。
【0084】
類型判別処理を開始すると、制御部21は、判別対象の拒絶理由通知書52のテキストデータを読み込む(ステップS201)。そして、読み込んだテキストデータから、類型判別に対する関係性が薄い記載を削除する(ステップS202)。具体的に説明すると、制御部11は、読み込んだテキストデータから、記載不備以外の拒絶理由に関する記載と特許出願書類から引用された記載とを特定し、特定した記載を読み込んだテキストデータから削除する。
【0085】
類型判別に対する関係性が薄い記載を削除すると、制御部11は、記載不備の拒絶理由に関するテキストの特徴情報として、形態素行列を生成する(ステップS203)。具体的に説明すると、制御部11は、抽出対象のテキストに含まれる各形態素の出現数をカウントし、カウントした出現数を要素として有する形態素行列を生成する。
【0086】
形態素行列を生成すると、制御部21は、拒絶理由通知書52に記載されている記載不備の拒絶理由の条項を判別する(ステップS204)。そして、制御部21は、判別した条項に定められた複数の類型のうちから、候補となる類型を1つ選択する(ステップS205)。
【0087】
類型を1つ選択すると、制御部21は、学習済みモデル70を用いて、判別対象の拒絶理由が選択した類型に該当する確からしさを計算する(ステップS206)。具体的に説明すると、制御部21は、学習済みモデル70に含まれる複数の類型別モデル72のうちの、ステップS205で選択した類型に対応する類型別モデル72に対して、ステップS203で生成した形態素行列を入力する。そして、制御部21は、形態素行列の入力に対して類型別モデル72により出力された数値を、判別対象の拒絶理由が選択した類型に該当する確からしさの数値として得る。
【0088】
確からしさを計算すると、制御部21は、候補となる全ての類型を選択したか否かを判定する(ステップS207)。未選択の類型が残っている場合(ステップS207;NO)、制御部21は、処理をステップS205に戻す。そして、制御部21は、ステップS205において、候補となる複数の類型のうちから未選択の類型を1つ選択して、ステップS206~S207の処理を繰り返す。これにより、制御部21は、判別対象の拒絶理由通知書に記載された拒絶理由が、候補となる複数の類型のそれぞれに該当する確からしさを計算する。
【0089】
最終的に、候補となる全ての類型を選択し終えた場合(ステップS207;YES)、制御部21は、判別対象の拒絶理由の類型を判別する(ステップS208)。具体的に説明すると、制御部21は、候補となる複数の類型のうちの、ステップS206で計算した確からしさの数値が最も高い類型が、判別対象の拒絶理由の類型に該当すると判別する。
【0090】
拒絶理由の類型を判別すると、制御部21は、判別結果を出力する(ステップS209)。制御部21は、例えば
図11に示したように、判別された類型を示す画像を表示部24に表示する。或いは、制御部21は、例えば
図13に示したように、拒絶理由の類型別の件数を表すレーダーチャートを生成して、表示部24に表示する。以上により、
図15に示した類型判別処理は終了する。
【0091】
以上説明したように、実施の形態1に係る類型判別システム1において、学習装置10は、学習対象の複数の拒絶理由のそれぞれに関するテキストの特徴情報と、対応する拒絶理由の類型と、の間の関係を学習することにより、学習済みモデル70を生成する。そして、類型判別装置20は、判別対象の拒絶理由に関するテキストから特徴情報を抽出し、生成された学習済みモデル70に基づいて、抽出された特徴情報から判別対象の拒絶理由の類型を判別する。
【0092】
これにより、拒絶理由の類型を自動的に判別することができるため、拒絶理由の分析に要する労力を軽減することができ、人的リソースを削減することができる。また、類型の判別結果から拒絶理由の傾向を分析してその課題を明確にすることにより、出願書類の品質を向上させるための指針を提供することにつながる。
【0093】
(実施の形態2)
次に、実施の形態2について説明する。実施の形態1と同様の構成及び機能については、適宜説明を省略する。
【0094】
実施の形態1では、学習装置10は、1つの機械学習の手法を用いて学習用データ60を学習することにより、学習済みモデル70を生成した。これに対して、実施の形態2では、学習装置10は、異なる複数の機械学習の手法を用いて学習用データ60を学習することにより、学習手法別のモデルを生成する
【0095】
図16に示すように、実施の形態2に係る学習済みモデル71は、複数の手法別モデル73と、判別精度データ80と、を含んでいる。複数の手法別モデル73のそれぞれは、互いに異なる学習手法を用いて、学習対象の複数の拒絶理由のそれぞれに関するテキストの特徴情報と、対応する拒絶理由の類型と、の間の関係を学習することにより生成されたモデルである。
【0096】
学習部130は、学習用データ生成部120により生成された学習用データ60を、異なる複数の学習手法を用いて学習することにより、学習済みモデル71として複数の手法別モデル73を生成する。具体的に説明すると、学習部130は、実施の形態1で説明した(1)ロジスティック回帰、(2)ニューラルネットワーク、(3)決定木、(4)バギング、(5)ランダムフォレスト、(6)XGBoost、(7)スタッキングの7個の機械学習の手法を用いる。
【0097】
学習部130は、これら7個の学習手法のそれぞれを個別に用いて学習用データ60を学習することにより、7個の手法別モデル73を生成する。7個の手法別モデル73のそれぞれは、判別対象の拒絶理由に関するテキストの特徴情報の入力に対して、その判別対象の拒絶理由の類型の判別結果を出力する、互いに独立したモデルである。
【0098】
より詳細には、各手法別モデル73は、複数の類型別モデル72を含んでおり、判別対象の拒絶理由の類型の候補となる複数の類型のそれぞれに該当する確からしさを示す数値を出力する。例えば
図5に示したように、候補となる類型が20個ある場合、学習部130は、各手法別モデル73に対して、20個の類型別モデル72を生成する。すなわち、候補となる類型の数がN個であり、学習手法の数がM個である場合、学習部130は、計(N×M)個のモデルを生成する。
【0099】
判別精度データ80は、複数の手法別モデル73のそれぞれを用いた場合における拒絶理由の類型の判別精度を示すデータである。ここで、判別精度は、類型判別部220により最も確からしいと判別された類型が、どの程度正しい類型に一致するかを示す数値である。学習部130は、複数の手法別モデル73のそれぞれを用いた場合における判別精度を、類型ごとに計算する。
【0100】
図17に、判別精度データ80の例を示す。判別精度データ80は、7個の学習手法のそれぞれを用いて生成された手法別モデル73を用いた場合における、
図5に示した20個の類型のそれぞれに対する判別精度を示している。
図17では、判別精度を正答率で示しており、正答率が高いほど判別精度が高いと言える。なお、
図17に示した数値は単なる例示である。
【0101】
図17では、理解を容易にするために、類型ごとに、7個の学習手法のうちの、判別精度が最も高い学習手法の数値に下線を引いている。例えば、第36条第4項第1号の第1類型に対する判別精度は、ランダムフォレストを用いた場合が0.76で最も高い。また、第36条第6項第2号の第2類型に対する判別精度は、スタッキングを用いた場合が0.81で最も高い。
【0102】
具体的に説明すると、学習部130は、
図14に示した学習済みモデルの生成処理のステップS107において、学習用データ60を訓練用データとテスト用データとに分ける。そして、学習部130は、訓練用データにおける拒絶理由の類型と形態素行列との間の関係を、複数の学習手法のそれぞれを用いて学習することにより、複数の手法別モデル73を生成する。
【0103】
複数の手法別モデル73を生成すると、学習部130は、テスト用データを正解データとして用いて、生成した複数の手法別モデル73のそれぞれの判別精度を計算する。具体的に説明すると、学習部130は、生成した各手法別モデル73に対して、テスト用データの形態素行列を入力する。そして、学習部130は、各手法別モデル73により最も確からしいと判別された類型が、テスト用データにおける正解の類型と一致する確率を計算する。このようにして、学習部130は、
図17に示すような判別精度データ80を生成し、学習済みモデル71に含める。
【0104】
類型判別装置20において、類型判別部220は、学習装置10により生成された学習済みモデル71に基づいて、抽出部210により抽出された特徴情報から判別対象の拒絶理由の類型を判別する。実施の形態2において、類型判別部220は、学習済みモデル71に含まれる複数の手法別モデル73のうちから選択された手法別モデル73に基づいて、判別対象の拒絶理由の類型を判別する。
【0105】
具体的に説明すると、類型判別部220は、
図15に示した類型判別処理のステップS206において、学習済みモデル71に含まれる複数の手法別モデル73のうちから、ステップS205で選択された類型に対する判別精度が最も高い手法別モデル73を選択する。その際、類型判別部220は、学習済みモデル71に含まれる判別精度データ80を参照する。
【0106】
具体的に
図17の例では、選択された類型が第36条第4項第1号の第1類型である場合、ランダムフォレストを用いた場合の判別精度が最も高い。そのため、類型判別部220は、ランダムフォレストにより生成された手法別モデル73を選択する。一方で、選択された類型が第36条第6項第2号の第2類型である場合、スタッキングを用いた場合の判別精度が最も高い。そのため、類型判別部220は、スタッキングにより生成された手法別モデル73を選択する。
【0107】
手法別モデル73を選択すると、類型判別部220は、選択した手法別モデル73を用いて、判別対象の拒絶理由の類型が選択した類型に該当する確からしさを計算する。このように、類型判別部220は、ステップS205~S207において、候補となる類型ごとに、複数の手法別モデル73のうちから判別精度が最も高い手法別モデル73を選択する。そして、類型判別部220は、選択した手法別モデル73を用いて、判別対象の拒絶理由の類型が候補となる複数の類型のそれぞれに該当する確からしさを計算する。
【0108】
ステップS208において、類型判別部220は、ステップS206で候補となる複数の類型のそれぞれに対して計算した確からしさの数値を比較する。比較の結果、類型判別部220は、候補となる複数の類型のうちの、確からしさの数値が最も高い類型が、判別対象の拒絶理由の類型に該当すると判別する。
【0109】
以上説明したように、実施の形態2に係る類型判別システム1において、学習装置10は、異なる複数の学習手法で学習用データ60を学習することにより複数の手法別モデル73を生成し、類型判別装置20は、複数の手法別モデル73のうちから、候補となる類型ごとに判別精度が最も高い手法別モデル73を選択し、選択した手法別モデル73に基づいて、判別対象の拒絶理由の類型を判別する。類型ごとに判別精度が最も高い学習手法で学習されたモデルを採用するため、実施の形態2に係る類型判別システム1は、より高い精度で拒絶理由の類型を判別することができる。
【0110】
(変形例)
以上、実施の形態を説明したが、各実施の形態を組み合わせたり、各実施の形態を適宜、変形、省略したりすることが可能である。
【0111】
例えば、上記実施の形態では、データベース50は学習装置10に備えられていた。しかしながら、データベース50は、学習装置10に備えられることに限らず、学習装置10の外部に設けられていても良い。その場合、抽出部110は、通信部15を介した通信により、外部のデータベース50から学習対象の複数の拒絶理由通知書51を取得し、複数の拒絶理由通知書51に記載されている拒絶理由に関するテキストからその特徴情報を取得する。また、データベース50に限らず、学習装置10及び類型判別装置20に備えられる機能の一部又は全部は、クラウドコンピューティングのリソースを提供するサーバに備えられており、サーバが上述した機能の一部又は全部を実行しても良い。
【0112】
上記実施の形態では、抽出部110,210は、拒絶理由に関するテキストの特徴情報として、形態素の出現数に関する情報を抽出し、形態素行列を生成した。しかしながら、抽出部110,210は、形態素行列に限らず、拒絶理由に関するテキストの特徴を示す情報であれば、どのような情報を抽出しても良い。例えば、抽出部110,210は、形態素の代わりに、拒絶理由に関するテキストを単語の単位で分割し、単語の出現数に関する情報を抽出しても良い。
【0113】
上記実施の形態では、類型判別装置20は、拒絶理由が
図5に示した類型のいずれに該当するかを判別した。しかしながら、
図5に示した類型の分類は一例であって、類型判別装置20により判別される類型は、どのように分類されたものであっても良い。
【0114】
上記実施の形態では、類型判別装置20による判別対象の拒絶理由及び学習装置10による学習対象の拒絶理由は、第36条第4項第1号、第6項第1号及び第6項第2号に関する記載不備の拒絶理由であった。しかしながら、判別対象及び学習対象の拒絶理由は、これら以外の記載不備の拒絶理由であっても適用可能であるし、記載不備の拒絶理由に限らず、発明該当性、新規性、進歩性等のような他の拒絶理由であっても適用可能である。判別対象及び学習対象の拒絶理由が記載不備以外である場合であっても、上記実施の形態で説明した処理を同様に適用することにより、拒絶理由の類型を判別することができる。
【0115】
例えば、特許法第29条第1項柱書に規定されている発明該当性に関して、特許・実用新案審査基準には、発明に該当しないものの複数の類型が示されている。そのため、各類型に関するテキストの特徴情報を拒絶理由から抽出して学習することで、発明該当性の拒絶理由の類型判別を行うことが可能である。更に、特許法第29条第2項に規定されている進歩性に関して、特許・実用新案審査基準によると、進歩性が否定される方向に働く要素として、主引用発明に副引用発明を適用する動機付け、主引用発明からの設計変更等、及び、先行技術の単なる寄せ集めという類型が挙げられている。また、主引用発明に副引用発明を適用する動機付けの下位の類型として、(1)技術分野の関連性、(2)課題の共通性、(3)作用、機能の共通性、及び、(4)引用発明の内容中の示唆が挙げられている。そのため、これらの類型に関するテキストの特徴情報を拒絶理由から抽出し学習することで、進歩性の拒絶理由の類型判別を行うことも可能である。以上のとおり、本開示に係る類型判別装置は、記載不備という拒絶理由に限らず、類型に分類分けを行うことができるその他の拒絶理由の類型判別に適用可能である。
【0116】
また、判別対象及び学習対象の拒絶理由は、特許出願書類に対して通知された拒絶理由通知書51,52に記載されていた。しかしながら、判別対象及び学習対象の拒絶理由は、拒絶理由通知書に限らず、例えば拒絶査定を通知する書類に記載されたものであっても良い。また、判別対象及び学習対象の拒絶理由は、特許出願書類に限らず、意匠出願書類、商標出願書類等の産業財産権の出願書類に対して通知された書類に記載されたものであっても良い。
【0117】
上記実施の形態では、学習装置10の制御部11において、CPUがROM又は記憶部12に記憶されたプログラムを実行することによって、
図3に示した各部として機能した。また、類型判別装置20の制御部21において、CPUがROM又は記憶部22に記憶されたプログラムを実行することによって、
図10に示した各部として機能した。しかしながら、制御部11,21は、専用のハードウェアであってもよい。専用のハードウェアとは、例えば単一回路、複合回路、プログラム化されたプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、又は、これらの組み合わせ等である。制御部11,21が専用のハードウェアである場合、各部の機能それぞれを個別のハードウェアで実現してもよいし、各部の機能をまとめて単一のハードウェアで実現してもよい。
【0118】
また、各部の機能のうち、一部を専用のハードウェアによって実現し、他の一部をソフトウェア又はファームウェアによって実現してもよい。このように、制御部11,21は、ハードウェア、ソフトウェア、ファームウェア、又は、これらの組み合わせによって、上述の各機能を実現することができる。
【0119】
学習装置10及び類型判別装置20のそれぞれの動作を規定するプログラムを、パーソナルコンピュータ、情報端末装置等の既存のコンピュータに適用することで、当該コンピュータを、学習装置10及び類型判別装置20のそれぞれとして機能させることも可能である。
【0120】
また、このようなプログラムの配布方法は任意であり、例えば、CD-ROM(Compact Disk ROM)、DVD(Digital Versatile Disk)、MO(Magneto Optical Disk)、メモリカード等のコンピュータ読み取り可能な記録媒体に格納して配布してもよいし、インターネット等の通信ネットワークを介して配布してもよい。
【0121】
本開示は、本開示の広義の精神と範囲を逸脱することなく、様々な実施の形態及び変形が可能とされるものである。また、上述した実施の形態は、この開示を説明するためのものであり、本開示の範囲を限定するものではない。すなわち、本開示の範囲は、実施の形態ではなく、特許請求の範囲によって示される。そして特許請求の範囲内及びそれと同等の開示の意義の範囲内で施される様々な変形が、この開示の範囲内とみなされる。
【符号の説明】
【0122】
1 類型判別システム、10 学習装置、11,21 制御部、12,22 記憶部、13,23 操作受付部、14,24 表示部、15,25 通信部、20 類型判別装置、50 データベース、51,52 拒絶理由通知書、60 学習用データ、70,71 学習済みモデル、72 類型別モデル、73 手法別モデル、80 判別精度データ、110,210 抽出部、120 学習用データ生成部、130 学習部、220 類型判別部、230 出力部