IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人長岡技術科学大学の特許一覧 ▶ 有限会社アイ・アール・ディーの特許一覧

特開2022-14400重要技術語取得装置、重要技術語取得方法、およびプログラム
<>
  • 特開-重要技術語取得装置、重要技術語取得方法、およびプログラム 図1
  • 特開-重要技術語取得装置、重要技術語取得方法、およびプログラム 図2
  • 特開-重要技術語取得装置、重要技術語取得方法、およびプログラム 図3
  • 特開-重要技術語取得装置、重要技術語取得方法、およびプログラム 図4
  • 特開-重要技術語取得装置、重要技術語取得方法、およびプログラム 図5
  • 特開-重要技術語取得装置、重要技術語取得方法、およびプログラム 図6
  • 特開-重要技術語取得装置、重要技術語取得方法、およびプログラム 図7
  • 特開-重要技術語取得装置、重要技術語取得方法、およびプログラム 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022014400
(43)【公開日】2022-01-19
(54)【発明の名称】重要技術語取得装置、重要技術語取得方法、およびプログラム
(51)【国際特許分類】
   G06F 40/279 20200101AFI20220112BHJP
【FI】
G06F40/279
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2020116718
(22)【出願日】2020-07-06
(71)【出願人】
【識別番号】304021288
【氏名又は名称】国立大学法人長岡技術科学大学
(71)【出願人】
【識別番号】502384842
【氏名又は名称】株式会社アイ・アール・ディー
(74)【代理人】
【識別番号】100115749
【弁理士】
【氏名又は名称】谷川 英和
(72)【発明者】
【氏名】邊土名 朝飛
(72)【発明者】
【氏名】野中 尋史
(72)【発明者】
【氏名】谷川 英和
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091AB08
(57)【要約】      (修正有)
【課題】特許文書から重要度が高い技術語を的確に取得する重要技術語取得装置、方法およびプログラムを提供する。
【解決手段】重要技術語取得装置1において、予め決められた条件である技術語候補条件を満たす用語である技術語候補を、特許に関する特許文書から取得する技術語候補取得部と、特許文書における技術語候補の1以上の出現箇所を決定する出現箇所決定部と、1以上の出現箇所に応じて、技術語候補のスコアを取得するスコア取得部と、スコアが予め決められた条件を満たすほど高い技術語候補を、重要技術語として取得する重要技術語取得部と、重要技術語を出力する重要技術語出力部と、を具備する。
【選択図】図1
【特許請求の範囲】
【請求項1】
予め決められた条件である技術語候補条件を満たす用語である技術語候補を、特許に関する特許文書から取得する技術語候補取得部と、
前記特許文書における前記技術語候補の1以上の出現箇所を決定する出現箇所決定部と、
前記1以上の出現箇所に応じて、前記技術語候補のスコアを取得するスコア取得部と、
前記スコアが予め決められた条件を満たすほど高い技術語候補を、重要技術語として取得する重要技術語取得部と、
前記重要技術語を出力する重要技術語出力部とを具備する重要技術語取得装置。
【請求項2】
前記技術語候補条件は、1以上の形容詞と1以上の名詞の集合であることである請求項1記載の重要技術語取得装置。
【請求項3】
前記技術語候補取得部は、
前記技術語候補条件を満たす用語である技術語候補を、前記特許文書から取得する取得手段と、
前記取得手段が取得した文字列のうち、ノイズであると判断される条件であるノイズ条件を満たす文字列を削除する削除手段とを具備する請求項1または請求項2記載の重要技術語取得装置。
【請求項4】
前記出現箇所決定部は、
前記技術語候補が含まれる文の種類を決定する、または前記技術語候補が含まれる書類を決定する、または前記技術語候補が含まれる明細書内のタグ項目を決定し、
前記スコア取得部は、
前記技術語候補が含まれる文の種類に応じて異なるスコアを取得する、または前記技術語候補が含まれる書類に応じて異なるスコアを取得する、または前記技術語候補が含まれる明細書内のタグ項目に応じて異なるスコアを取得する請求項1から請求項3いずれか一項に記載の重要技術語取得装置。
【請求項5】
課題を取得するための表現である1以上の課題手がかり表現が格納される課題手がかり表現格納部をさらに具備し、
前記出現箇所決定部は、
前記技術語候補が、前記1以上の課題手がかり表現を含む重要詳細文に含まれる場合に、当該技術語候補が含まれる文の種類を「重要詳細文」であると決定し、前記技術語候補が含まれる書類を決定し、かつ前記技術語候補が含まれる明細書内のタグ項目を決定し、
前記スコア取得部は、
前記出現箇所決定部が決定した前記文の種類、前記書類、および前記タグ項目に応じて、スコアを取得する請求項1から請求項4いずれか一項に記載の重要技術語取得装置。
【請求項6】
前記出現箇所決定部は、
前記技術語候補が、前記1以上の課題手がかり表現を含む重要詳細文に含まれる場合に、当該技術語候補が含まれる文の種類を「重要詳細文」であると決定し、
前記技術語候補が、前記重要詳細文以外の文に含まれる場合に、当該技術語候補が含まれる文の種類を「一般詳細文」であると決定し、
前記技術語候補が、前記技術語候補が要約書に含まれる場合に、当該技術語候補が含まれる書類を「要約書」と決定し、
前記技術語候補が、特定の請求項に含まれる場合に、当該技術語候補が含まれるタグ項目を「特定の請求項」と決定し、
前記技術語候補が、明細書の中の符号の説明の項目に含まれる場合に、当該技術語候補が含まれるタグ項目を「符号の説明」と決定し、
前記スコア取得部は、
前記技術語候補取得部が取得した技術語候補、当該技術語候補に対して決定された文の種類、書類、およびタグ項目の各々をノードとし、当該技術語候補と、前記文の種類、書類、およびタグ項目の間にエッジを付加した有向グラフを構築する構造情報構築手段と、
前記有向グラフに対して、ページランクのアルゴリズムにより、前記技術語候補のノードのスコアを算出するスコア算出手段とを具備する請求項5記載の重要技術語取得装置。
【請求項7】
技術語候補取得部、出現箇所決定部、スコア取得部、重要技術語取得部、および重要技術語出力部によって実現される重要技術語取得方法であって、
前記技術語候補取得部が、予め決められた条件である技術語候補条件を満たす用語である技術語候補を、特許に関する特許文書から取得する技術語候補取得ステップと、
前記出現箇所決定部が、前記特許文書における前記技術語候補の1以上の出現箇所を決定する出現箇所決定ステップと、
前記スコア取得部が、前記1以上の出現箇所に応じて、前記技術語候補のスコアを取得するスコア取得ステップと、
前記重要技術語取得部が、前記スコアが予め決められた条件を満たすほど高い技術語候補を、重要技術語として取得する重要技術語取得ステップと、
前記重要技術語出力部が、前記重要技術語を出力する重要技術語出力ステップとを具備する重要技術語取得方法。
【請求項8】
コンピュータを、
予め決められた条件である技術語候補条件を満たす用語である技術語候補を、特許に関する特許文書から取得する技術語候補取得部と、
前記特許文書における前記技術語候補の1以上の出現箇所を決定する出現箇所決定部と、
前記1以上の出現箇所に応じて、前記技術語候補のスコアを取得するスコア取得部と、
前記スコアが予め決められた条件を満たすほど高い技術語候補を、重要技術語として取得する重要技術語取得部と、
前記重要技術語を出力する重要技術語出力部として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、特許文書から重要な技術語を取得する重要技術語取得装置等に関するものである。
【背景技術】
【0002】
従来、TF-IDFと共起頻度をベースとした、半自動的に稀少なキーワードを抽出する統計的手法が存在した(例えば、非特許文献1参照)。
【0003】
また、グラフベースの教師なし手法として、従来、TextRankが存在した(例えば、非特許文献2参照)。さらには、重要な単語ほど先頭にかつ頻繁に出現すると仮定し、文書中の単語の位置情報と頻度に基づくバイアスを組み込んだモデルであるPositionRankも存在した(例えば、非特許文献3参照)。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】Y. -R. Li, L. -H. Wang, C. -F., Hong, “Extracting the significant-rare keywords for patent analysis,” Expert Systems with Applications, vol. 36, pp. 5200-5204, 2009.
【非特許文献2】Mihalcea, R. and Tarau, P.: TextRank: Bringing Order into Text, in Proceedings of the 2004 Conference on Empirical Methods in Natural Language Processing, pp. 404?411, Barcelona, Spain (2004), Association for Computational Linguistics
【非特許文献3】Florescu, C. and Caragea, C.: PositionRank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents, in Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics, pp. 1105?1115, Vancouver, Canada (2017), Association for Computational Linguistics
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかし、TF-IDFベースの統計的手法で特許文書から抽出されるキーワードは、意味的に雑多であり、重要技術語としては適切ではないことが多かった。
【0006】
また、TextRankやPositionRankといった、従来のグラフベース教師なし手法でも、特許文書から重要度が高い技術語を的確に取得することは困難であった。
【課題を解決するための手段】
【0007】
本第一の発明の重要技術語取得装置は、予め決められた条件である技術語候補条件を満たす用語である技術語候補を、特許に関する特許文書から取得する技術語候補取得部と、特許文書における技術語候補の1以上の出現箇所を決定する出現箇所決定部と、1以上の出現箇所に応じて、技術語候補のスコアを取得するスコア取得部と、スコアが予め決められた条件を満たすほど高い技術語候補を、重要技術語として取得する重要技術語取得部と、重要技術語を出力する重要技術語出力部とを具備する重要技術語取得装置である。
【0008】
かかる構成により、特許文書から重要度が高い技術語を的確に取得できる。
【0009】
また、本第二の発明の重要技術語取得装置は、第一の発明に対して、技術語候補条件は、1以上の形容詞と1以上の名詞の集合であることである重要技術語取得装置である。
【0010】
かかる構成により、特許文書から重要度が高い技術語を的確かつ簡易に取得できる。
【0011】
また、本第三の発明の重要技術語取得装置は、第一または第二の発明に対して、技術語候補取得部は、技術語候補条件を満たす用語である技術語候補を、特許文書から取得する取得手段と、取得手段が取得した文字列のうち、ノイズであると判断される条件であるノイズ条件を満たす文字列を削除する削除手段とを具備する重要技術語取得装置である。
【0012】
かかる構成により、特許文書から重要度が高い技術語をより的確に取得できる。
【0013】
また、本第四の発明の重要技術語取得装置は、第一から第三いずれか1つの発明に対して、出現箇所決定部は、技術語候補が含まれる文の種類を決定する、または技術語候補が含まれる書類を決定する、または技術語候補が含まれる明細書内のタグ項目を決定し、スコア取得部は、技術語候補が含まれる文の種類に応じて異なるスコアを取得する、または技術語候補が含まれる書類に応じて異なるスコアを取得する、または技術語候補が含まれる明細書内のタグ項目に応じて異なるスコアを取得する重要技術語取得装置である。
【0014】
かかる構成により、技術語候補の出現位置に応じたスコアを的確に取得できる。
【0015】
また、本第五の発明の重要技術語取得装置は、第一から第四いずれか1つの発明に対して、課題を取得するための表現である1以上の課題手がかり表現が格納される課題手がかり表現格納部をさらに具備し、出現箇所決定部は、技術語候補が、1以上の課題手がかり表現を含む重要詳細文に含まれる場合に、技術語候補が含まれる文の種類を「重要詳細文」であると決定し、技術語候補が含まれる書類を決定し、かつ技術語候補が含まれる明細書内のタグ項目を決定し、スコア取得部は、出現箇所決定部が決定した文の種類、書類、およびタグ項目に応じて、スコアを取得する重要技術語取得装置である。
【0016】
かかる構成により、技術語候補の出現位置に応じたスコアを的確に取得できる。
【0017】
また、本第六の発明の重要技術語取得装置は、第五の発明に対して、出現箇所決定部は、技術語候補が、1以上の課題手がかり表現を含む重要詳細文に含まれる場合に、技術語候補が含まれる文の種類を「重要詳細文」であると決定し、技術語候補が、重要詳細文以外の文に含まれる場合に、技術語候補が含まれる文の種類を「一般詳細文」であると決定し、技術語候補が、技術語候補が要約書に含まれる場合に、技術語候補が含まれる書類を「要約書」と決定し、技術語候補が、特定の請求項に含まれる場合に、技術語候補が含まれるタグ項目を「特定の請求項」と決定し、技術語候補が、明細書の中の符号の説明の項目に含まれる場合に、技術語候補が含まれるタグ項目を「符号の説明」と決定し、スコア取得部は、技術語候補取得部が取得した技術語候補、技術語候補に対して決定された文の種類、書類、およびタグ項目の各々をノードとし、技術語候補と、文の種類、書類、およびタグ項目の間にエッジを付加した有向グラフを構築する構造情報構築手段と、有向グラフに対して、ページランクのアルゴリズムにより、技術語候補のノードのスコアを算出するスコア算出手段とを具備する重要技術語取得装置である。
【0018】
かかる構成により、技術語候補の出現位置に応じたスコアを容易かつ的確に取得できる。
【発明の効果】
【0019】
本発明によれば、特許文書から重要度が高い技術語を的確に取得できる。
【図面の簡単な説明】
【0020】
図1】実施の形態における重要技術語取得装置のブロック図
図2】同重要技術語取得装置の動作を説明するフローチャート
図3】同技術語候補取得処理を説明するフローチャート
図4】同出現箇所決定処理を説明するフローチャート
図5】同有向グラフの一例を示す図
図6】同評価結果の一例を示す図
図7】同コンピュータシステムの外観図
図8】同コンピュータシステムの内部構成の一例を示す図
【発明を実施するための形態】
【0021】
以下、重要技術語取得装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
【0022】
本実施の形態において、特許文書から技術語候補を取得し、技術語候補の出現箇所に応じた技術語候補の重要度を取得し、重要度が高い語を重要技術語とする重要技術語取得装置1について説明する。
【0023】
重要技術語取得装置1は、例えば、LANやインターネット等のネットワーク、無線または有線の通信回線などを介して、図示しない外部のサーバまたは/および図示しない1以上の端末装置の各々と通信可能に接続されることは好適であるが、スタンドアロンでも良い。
【0024】
特許文書は、例えば、図示しない外部のサーバから受信されるが、重要技術語取得装置1の内部の記録媒体に予め格納されていても良いし、着脱式の記録媒体から読み込まれても良い。なお、内部の記録媒体とは、例えば、格納部11等を実現する記録媒体でも良いし、他の記録媒体でも良い。以下では、こうした各種の記録媒体を、単に記録媒体と記す場合がある。
【0025】
特許文書から取得された1以上の重要技術語は、例えば、図示しない端末装置に送信されるが、重要技術語取得装置1の内部または外部のディスプレイに表示されても良いし、記録媒体に蓄積されても良い。
【0026】
図1は、本実施の形態における重要技術語取得装置1のブロック図である。
【0027】
重要技術語取得装置1は、格納部11、受付部12、処理部13、出力部14、受信部15、および送信部16を備える。格納部11は、特許文書格納部111、および課題手がかり表現格納部112を備える。処理部13は、技術語候補取得部131、出現箇所決定部132、スコア取得部133、および重要技術語取得部134を備える。技術語候補取得部131は、取得手段1311、および削除手段1312を備える。スコア取得部133は、構造情報構築手段1331、およびスコア算出手段1332を備える。出力部14は、重要技術語出力部141を備える。
【0028】
なお、重要技術語取得装置1がスタンドアロンの場合は、受信部15および送信部16を備えなくても良い。
【0029】
格納部11は、各種の情報を格納し得る。各種の情報とは、例えば、後述する特許文書、後述する課題手がかり表現などである。
【0030】
また、格納部11には、例えば、各種の技術分野の用語の辞書や、ストップワードの辞書なども格納される。ストップワードとは、極めて一般的であるため、通常、単独では検索から除外される単語である。ストップワードは、例えば、日本語の「は」や「です」、英語の「the」や「of」などであるが、一般的な用語であれば何でも良い。なお、その他の情報について、適時説明する場合がある。
【0031】
特許文書格納部111には、1または2以上の特許文書が格納される。特許文書とは、特許に関する文書である。特許文書は、通常、特許公報である。特許公報とは、特許庁が発行する公報である。特許公報は、例えば、公開特許公報、特許公報、公表特許公報、再公表特許、登録実用新案公報などであるが、その種類は問わない。
【0032】
特許公報は、例えば、日本国の特許庁が発行する公報であるが、外国の特許庁が発行する公報でも良い。外国の特許庁は、例えば、米国特許庁、欧州特許庁等であるが、所属する国や地域は問わない。特許文書の言語は、例えば、日本語であるが、外国語でも良い。外国語は、例えば、英語、中国語等であるが、その種類は問わない。
【0033】
特許文書は、例えば、願書、特許請求の範囲、要約書、および明細書を含む。ただし、特許文書は、例えば、要約書や願書を含まなくてもよく、その構成は問わない。また、特許文書は、特許庁以外の組織が発行する文書でもよく、特許に関する文書であれば種類は問わない。
【0034】
特許文書は、通常、1または2以上のタグ項目を有する。タグ項目とは、タグとなる項目である。タグ項目は、例えば、墨付き括弧の情報であるが、括弧は、「()」「[]」等、問わない。タグ項目は、例えば、課題、解決手段、請求項1~請求項N(ただし、Nは1または2以上の整数)、発明の名称、技術分野、背景技術、先行技術文献、発明の概要、 発明を実施するための形態、産業上の利用可能性、および符号の説明などである。タグ項目は、例えば、項目名を示す文字列と、当該文字列を挟む一対の記号とで構成される。一対の記号は、例えば、墨付き括弧であるが、その種類は問わない。
【0035】
通常、課題および解決手段は、要約書に含まれ、請求項は、特許請求の範囲に含まれ、その他の項目は、明細書に含まれるが、各タグ項目が属する書類は問わない。また、以下では、請求項1~請求項Nを、単に請求項と記す場合がある。
【0036】
特許文書格納部111には、例えば、文書識別子に対応付けて、1以上の特許文書が格納される。文書識別子とは、特許文書を識別する情報である。文書識別子は、例えば、公開番号、特許番号等であるが、文献名やID等でもよく、特許文書を識別し得る情報であれば何でも良い。ただし、特許文書格納部111に一の特許文書しか格納されていない場合、文書識別子はなくても良い。
【0037】
課題手がかり表現格納部112には、1または2以上の課題手がかり表現が格納される。課題手がかり表現とは、課題を表現した文を検出するための手がかりとなる表現である。課題手がかり表現は、例えば、「ことで、」「ことが可能であり、」「ようにしたため、」等の文字列である。文字列とは、1または2以上の文字の配列である。文字列は、例えば、句読点やその他の記号も含んでいても良い。ただし、課題手がかり表現の内容や形式は問わない。
【0038】
なお、課題手がかり表現については、例えば、「坂地泰紀,野中尋史,酒井浩之,増山繁:CrossBootstrapping:特許文書からの課題・効果表現対の自動抽出手法,電子情報通信学会論文誌 D, Vol. J93-D, No. 6, pp. 742?755 (2010)」に記載されている。
【0039】
受付部12は、各種の情報を受け付ける。受け付けとは、例えば、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付けであるが、ネットワークや通信回線を介して受信された情報の受け付けでも良いし、ディスクや半導体メモリなどの記録媒体から読み出された情報の受け付けでもよく、その態様は問わない。
【0040】
各種の情報とは、例えば、取得指示である。取得指示とは、特許文書から重要技術語を取得する旨の指示である。取得指示は、通常、1または2以上の文書識別子を有する。
【0041】
また、受付部12は、例えば、特許文書、課題手がかり表現等の情報を受け付けてもよく、受け付けられる情報の種類は問わない。
【0042】
処理部13は、各種の処理を行う。各種の処理とは、例えば、技術語候補取得部131、出現箇所決定部132、スコア取得部133、重要技術語取得部134、取得手段1311、削除手段1312、構造情報構築手段1331、およびスコア算出手段1332などの処理である。
【0043】
また、処理部13は、例えば、フローチャートで説明する各種の判別などの処理も行う。なお、その他の処理について、適時説明する場合がある。
【0044】
技術語候補取得部131は、1または2以上の技術語候補を特許文書から取得する。例えば、受付部12が、1以上の文書識別子を有する取得指示を受け付けたことに応じて、技術語候補取得部131は、当該1以上の各文書識別子ごとに、当該文書識別子に対応する特許文書から1以上の技術語候補を取得しても良い。技術語候補とは、特許文書に含まれる2以上の用語のうち、技術語候補条件を満たす用語である。技術語候補とは、技術語または後述する重要技術語の候補となる用語である。技術語とは、技術に関する用語であり、例えば、技術的手段、技術の専門用語等である。
【0045】
技術語候補取得部131は、例えば、特許文書に対して形態素解析を行い、形態素解析の結果と、格納部11に格納されている辞書とを用いて、2以上の用語を取得する。形態素解析とは、自然言語の文を1または2以上の形態素に分割し、当該分割した1以上の各形態素ごとに、品詞や活用形等の属性情報を取得する処理である。なお、形態素解析とその結果に基づく用語の取得は、公知技術であり、説明を省略する。
【0046】
技術語候補条件とは、技術語または重要技術語の候補に関する予め決められた条件である。技術語候補条件は、例えば、1以上の形容詞と1以上の名詞の集合であることは好適である。なお、本実施の形態でいう形容詞は、例えば、形容詞と同等の働きをする2以上の単語の集合(例えば、形容詞句など)でも良い。
【0047】
1以上の形容詞と1以上の名詞の集合は、具体的には、例えば、「底付きパイプ」や「塩化ビニルのパイプ」、「水道水の流入口」、「前記パイプ」などである。
【0048】
技術語候補条件は、例えば、「(形容詞)*(名詞)+」でも良い。ここで、“*”は、直前の要素(ここでは、形容詞)の0回以上の繰り返しを意味し、“+”は、直前の要素(ここでは、名詞)の1回以上の繰り返しを意味する。ただし、技術語候補条件の内容や形式は問わない。
【0049】
技術語候補取得部131は、例えば、図示しない技術語辞書に格納されている用語を特許文書が取得する。かかる場合、技術語候補条件は、技術語辞書に格納されていることである。技術語辞書には、1または2以上の技術語が格納される。
【0050】
技術語候補取得部131は、例えば、技術語候補条件「(形容詞)*(名詞)+」を満たす1以上の技術語候補を取得した後、当該取得した1以上の各技術語候補から、ノイズ条件を満たす文字列を削除しても良い。ノイズ条件とは、ノイズの用語であると判断される条件である。ノイズ条件は、ノイズを除去する予め決められた条件である、と言っても良い。
【0051】
ノイズ条件は、例えば、予め決められたパターンに一致する文字列であることである。予め決められたパターンは、例えば、正規表現パターンである。正規表現パターンとは、文字列の集合を一つの文字列で表現した情報である。正規表現パターンは、例えば、「(?(?:上記 | 前記 | 請求項 \d* | 該)*)」、または「((?:\d+ | 等)*)$」であるが、その内容や形式は問わない。予め決められたパターンは、例えば、特許文書に頻出する用語(例えば、上記、前記、請求項、該、当該)を含む用語である。用語は、1または2以上の単語を含む。
【0052】
または、ノイズ条件は、例えば、予め準備された辞書に含まれる単語と一致する文字列であることでも良い。予め準備された辞書は、例えば、ストップワードの辞書である。ストップワードの辞書は、例えば、Slothlibの提供する日本語ストップワード辞書であるが、その言語や提供元は問わない。本実施の形態におけるストップワード辞書は、例えば、既存のストップワード辞書に、特許文書に頻出する1以上単語を追加したものでも良い。追加する単語は、例えば、請求項に頻出する“特徴”,“記載”等の単語でも良い。
【0053】
詳しくは、技術語候補取得部131を構成する取得手段1311は、前述した技術語候補条件を満たす1以上の技術語候補を、特許文書から取得する。
【0054】
削除手段1312は、取得手段1311が取得した1または2以上の文字列のうち、前述したノイズ条件を満たす1以上の文字列を削除する。削除手段1312は、例えば、取得された文字列のうち、正規表現パターン等の予め決められたパターンに一致する文字列を削除し、さらに、ストップワード辞書等の予め準備された辞書に含まれる単語と一致する文字列をも削除することは好適である。
【0055】
出現箇所決定部132は、特許文書における技術語候補の1以上の出現箇所を決定する。出現箇所とは、技術語候補が出現する箇所を特定する情報である。出現箇所は、例えば、(1)技術語候補が出現する文の種類(例えば、「重要詳細文」「一般詳細文」)を特定する情報、(2)技術語候補が出現する書類を特定する情報(例えば、「特許請の範囲」、「要約書」、「明細書」)(3)技術語候補が出現するタグ項目(例えば、「符号の説明」、「課題を解決するための手段」、「発明の効果」)を特定する情報である。
【0056】
出現箇所決定部132は、例えば、技術語候補が含まれる文の種類を決定する。
【0057】
または、出現箇所決定部132は、例えば、技術語候補が含まれる書類を決定しても良い。
【0058】
または、出現箇所決定部132は、例えば、技術語候補が含まれる明細書内のタグ項目を決定しても良い。
【0059】
出現箇所決定部132は、例えば、技術語候補が、1以上の課題手がかり表現を含む重要詳細文に含まれる場合に、技術語候補が含まれる文の種類を「重要詳細文」であると決定し、技術語候補が含まれる書類を決定し、かつ技術語候補が含まれる明細書内のタグ項目を決定することは好適である。つまり、通常、課題の表現と共起する技術語は、重要な技術語である可能性が高い、と考えられる。
【0060】
詳しくは、出現箇所決定部132は、例えば、技術語候補取得部131が取得した1以上の各技術語候補について、次のような出現箇所決定処理を行う。すなわち、出現箇所決定部132は、最初、当該技術語候補を含む文が、課題手がかり表現格納部112に格納されている1以上の課題手がかり表現のうち、1または2以上の課題手がかり表現を含むか否かを判断する。そして、当該技術語候補を含む文が、格納されている1以上の課題手がかり表現のうち1以上の課題手がかり表現を含む場合に、出現箇所決定部132は、当該技術語候補を含む文を「重要詳細文」に決定する。一方、課題手がかり表現を1つも含まない場合には、出現箇所決定部132は、当該技術語候補を含む文を「一般詳細文」に決定する。
【0061】
次に、出現箇所決定部132は、特許文書を構成する1以上の書類のうち、技術語候補取得部131が取得した技術語候補が含まれる書類を決定する。例えば、特許文書を構成する1以上の各書類の先頭に、「書類名」を含むタグ項目が配置されている。
【0062】
出現箇所決定部132は、「書類名」のタグ項目に属する文字列(「書類名」のタグ項目に続く文字列)で示される書類を、出現箇所に決定する。なお、あるタグ項目に属する文字列とは、そのタグ項目と、その次のタグ項目との間に存在する文字列である。例えば、「書類名」を含むタグ項目に属する文字列が「要約書」である場合、当該技術語候補の出現箇所は、「要約書」に決定される。
【0063】
さらに、出現箇所決定部132は、当該技術語候補が含まれる書類内のタグ項目をも決定する。例えば、出現箇所決定部132は、明細書中の当該技術語候補が含まれるタグ項目を決定する。例えば、明細書中で、当該技術語候補から前方を検索し、「符号の説明」を含むタグ項目が最初に検出された場合、「符号の説明」を含むタグ項目が、当該技術語候補の出現箇所に決定される。例えば、出現箇所決定部132は、文字列「“請求項”[1-9][0-9]*」に合致する文字列のタグの中に技術語候補取得部131が取得した技術語候補が含まれると判断した場合、当該技術語候補の出現箇所を「請求項」として取得する。
【0064】
なお、出現箇所に決定することは、例えば、出現箇所を取得すること、出現箇所へのポインタを取得すること等である。
【0065】
スコア取得部133は、出現箇所決定部132が決定した1以上の出現箇所に応じて、技術語候補のスコアを取得する。スコア取得部133は、通常、同じ技術語候補でも、出現箇所が異なれば、異なるスコアを取得する。
【0066】
スコア取得部133は、例えば、技術語候補が含まれる文の種類に応じて異なるスコアを取得する。技術語候補が含まれる文の種類に応じて異なるスコアを取得するとは、通常、重要詳細文が一般詳細文よりも高いスコアを取得することである。
【0067】
スコア取得部133は、例えば、後述するページランクのアルゴリズムにより、スコアを取得することは好適である。
【0068】
スコア取得部133は、例えば、技術語候補取得部131が取得した技術語候補、技術語候補に対して決定された文の種類、書類、およびタグ項目の各々をノードとし、技術語候補と、文の種類、書類、およびタグ項目の間に、重要度が低いものから高いものに向かうエッジを付加した有向グラフを構築し、当該構築した有向グラフに対して、ページランクのアルゴリズムにより、技術語候補のノードのスコアを算出しても良い。
【0069】
詳しくは、スコア取得部133を構成する構造情報構築手段1331は、技術語候補取得部131が取得した技術語候補、技術語候補に対して決定された文の種類、書類、およびタグ項目の各々をノードとし、技術語候補と、文の種類、書類、およびタグ項目の間に、文の種類、書類、およびタグ項目の各々から技術語候補に向かうエッジを付加した有向グラフを構築する。
【0070】
さらに具体的には、例えば、格納部11に、ノード要素識別子群、および重要度情報が格納されている。ノード要素識別子群とは、ノード要素識別子の集合である。ノード要素識別子とは、ノードとなる要素を識別する情報である。ノード要素識別子は、例えば、後述する図5に示されている、重要詳細文、一般詳細文、請求項、要約、符号の説明、技術語候補等の要素であるが、その種類は問わない。
【0071】
重要度情報とは、ノード要素間の重要度の関係に関する情報である。重要度情報は、例えば、“重要詳細文<請求項<要約<符号の説明”といった、重要度が高い順又は低い順にノード要素識別子を配列した情報でも良いし、ノード要素識別子と重要度の組の集合でも良く、その形式は問わない。また、重要度情報は、例えば、“請求項1>請求項2”といった、請求項間の重要度に関する情報や、“一般詳細文<重要詳細文”といった、文の種類の間の重要度に関する情報なども含むことは好適である。
【0072】
構造情報構築手段1331は、例えば、上記ノード要素識別子群を用いて、ノード群を定義する。具体的には、構造情報構築手段1331は、技術語候補取得部131が取得した技術語候補、技術語候補に対して決定された文の種類、書類、およびタグ項目の各々をノードとして取得する。
【0073】
なお、ノード群とは、各種のノードの集合である。各種のノードとは、例えば、重要詳細文ノード、請求項ノード、要約ノード、および符号の説明ノードなどである。次に、構造情報構築手段1331は、当該定義したノード群に対し、上記重要度情報を用いて、重要度が低いノードから高いノードに向かう有向エッジを付加する。重要度が低いノードから高いノードに向かう有向エッジとは、例えば、重要詳細文ノードから請求項ノードに向かう有向エッジ、請求項ノードから要約ノードに向かう有向エッジ、請求項ノードから符号の説明ノードに向かう有向エッジ、および要約ノードから符号の説明ノードに向かう有向エッジ、ならびに、請求項、要約、および符号の説明の各ノードから技術語候補に向かう有向エッジなどである。
【0074】
次に、構造情報構築手段1331は、技術語候補ノードから重要詳細文ノードに向かう有向エッジ、および技術語候補ノードから一般詳細文ノードに向かう有向エッジも付加する。ただし、一般詳細文ノードから他のノードに向かう有向エッジは付加されない。
【0075】
また、構造情報構築手段1331は、例えば、下位の請求項から上位の請求項に向かう有向エッジをも付加する。下位の請求項から上位の請求項に向かう有向エッジとは、例えば、請求項2から請求項1に向かう有向エッジなどである。これにより、図5に示す有向グラフが構築される。
【0076】
また、構造情報構築手段1331は、例えば、従属請求項から、当該従属請求項が従属している被従属の請求項に向かう有向エッジをも付加する。
【0077】
スコア算出手段1332は、構造情報構築手段1331が構築した有向グラフに対して、ページランクのアルゴリズムにより、技術語候補のノードのスコアを算出する。ページランクのアルゴリズムとは、Webページをノードとして、Webページ間の有向リンクをエッジとした場合に、Webページの重要度を決定するためのアルゴリズムである。ページランクのアルゴリズムは、例えば、具体例で説明する数1の式を用いるアルゴリズムであるが、マルコフ行列等の確率行列を用いるアルゴリズムでもよく、その種類は問わない。
【0078】
ページランクは、例えば、次のようにして、各ページのスコアを計算するアルゴリズムである。すなわち、各ページ(ノード)に、固有の得点が対応付いている。各リンク(有向エッジ)にも、固有の得点が対応付いている。あるページXの得点がPであり、他のページからXへのリンクの得点がQ1,Q2・・・Qnであり、Xから他のページへのリンクの得点がR1,R2・・・Rmである。このとき、“Q1+Q2+・・・+Qn=P”かつ“R1=R2=・・・=Rm=P/m”が成り立つように、各ページの得点を決定する。
【0079】
つまり、各ページに「流れ込む」リンクの得点の総和と、各ページから「流れ出す」リンクの得点の総和とが等しくなるようにして、その総和をそのページのスコアとする。このスコアが高いほど、そのページは重要であると考えられる。 また、ページランクは、例えば、グラフ理論に基づくアルゴリズムでも良い。すなわち、各ページをノードとし、各リンクをエッジとした有向グラフを定義する。この有向グラフ隣接行列を転置したものをA=(aij)とし、行列B=(bij)を“bij=aij/Σkj”として、Bの最大固有値に属する固有ベクトルを求める。この固有ベクトルの各要素の値が、求めるべき各ページのスコアとなる。
【0080】
また、ページランクは、例えば、数1の式により、あるページvのスコアS(v)を計算するアルゴリズムでも良い。数1の式において、S(v)は、ページvにリンクしている他のページvのスコアである。Out(v)は、ページvに含まれるその他のページへのリンクの総数である。なお、数1の式については、「Brin, S.; Page, L. (1998), The Anatomy of a Large-Scale Hypertextual Web Search Engine」に記載されている。
【0081】
スコア算出手段1332は、このページランクのアルゴリズムを、構造情報構築手段1331が構築した有向グラフに適用し、技術語候補のスコアを取得する。具体的には、スコア算出手段1332は、例えば、取得された技術語候補、技術語候補に対して決定された文の種類、書類、およびタグ項目をノードとし、文の種類、書類、およびタグ項目の各々から技術語候補に向かうエッジを付加することにより構築した有向グラフに適用し、技術語候補のスコアを取得する。これにより、技術語候補の出現箇所によって異なるスコアが取得される。
【0082】
さらに具体的には、スコア算出手段1332は、例えば、ページランクのアルゴリズムを、図5に示した有向グラフ内の循環グラフに適用し、各ノードのスコアを算出しても良い。循環グラフとは、一のノード(例えば、重要詳細文ノード)から出て、他の2以上のノード(請求項ノード、要約ノード、または符号の説明ノードのうち1以上のノード、および技術語候補ノード)を経て、当該一のノードに戻るグラフである。これにより、技術語候補の出現箇所間の関係性に応じたスコアが取得される。
【0083】
また、例えば、格納部11に、重要詳細文と一般詳細文への配点に関する第一配点情報が格納されており、スコア取得部133は、当該格納されている第一配点情報を用いて、技術語候補が含まれる文の種類に応じたスコアを取得しても良い。具体的には、例えば、第一配点情報が“重要詳細文:5点,一般詳細文:1点”であり、決定された文の種類が、重要詳細文である場合は5点が取得され、一般詳細文である場合は1点が取得されても良い。
【0084】
または、スコア取得部133は、例えば、技術語候補が含まれる書類に応じて異なるスコアを取得しても良い。書類に応じて異なるスコアを取得するとは、例えば、「要約書>特許請求の範囲>明細書」の順位で高いスコアを取得することである。
【0085】
例えば、格納部11に、各種の書類への配点に関する第二配点情報が格納されており、スコア取得部133は、当該格納されている第二配点情報を用いて、技術語候補が含まれる書類に応じたスコアを取得しても良い。具体的には、例えば、第二配点情報が“要約書:5点,特許請求の範囲:3点,明細書:1点”であり、決定された書類が要約書である場合は5点が取得され、明細書である場合は1点が取得されても良い。
【0086】
または、スコア取得部133は、例えば、技術語候補が含まれる明細書内のタグ項目に応じて異なるスコアを取得しても良い。明細書内のタグ項目とは、例えば、実施の形態、符号の説明、発明の効果などである。タグ項目に応じて異なるスコアを取得するとは、例えば、「符号の説明>発明の効果>発明の実施の形態」の順位で高いスコアを取得することである。
【0087】
例えば、格納部11に、明細書内の各種のタグ項目への配点に関する第三配点情報が格納されており、スコア取得部133は、当該格納されている第三配点情報を用いて、技術語候補が含まれる明細書内のタグ項目に応じたスコアを取得しても良い。具体的には、例えば、第三配点情報が“符号の説明:5点,発明の効果:3点,実施の形態:0点”であり、決定されたタグ項目が、符号の説明である場合は5点が取得され、発明の効果である場合は3点が取得され、実施の形態である場合は点が取得されなくても良い。
【0088】
スコア取得部133は、例えば、出現箇所決定部132が決定した文の種類、書類、およびタグ項目に応じて、スコアを取得することは好適である。
【0089】
例えば、格納部11に、上記第一~第三の3つの配点情報が格納されており、スコア取得部133は、当該格納されている3つの配点情報を用いて、決定された文の種類、書類、およびタグ項目に応じたスコアを取得しても良い。具体的には、例えば、決定された書類が、要約書である場合は5点が取得され、特許請求の範囲である場合は3点が取得されても良い。
【0090】
決定された書類が明細書である場合は、まず1点が取得され、次に、決定された明細書内のタグ項目が、符号の説明である場合は、さらに5点が、発明の効果である場合は、さらに3点が、それぞれ取得されても良い。決定された明細書内のタグ項目が実施の形態であり、決定された文の種類が、重要詳細文である場合は、さらに5点が、一般詳細文である場合は1点が取得されても良い。
【0091】
重要技術語取得部134は、技術語候補取得部131が取得した1以上の技術語候補のうち、スコア取得部133が取得したスコアが予め決められた条件を満たすほど高い技術語候補を、重要技術語として取得する。
【0092】
予め決められた条件とは、例えば、スコア取得部133が取得したスコアが、閾値以上であること、閾値より大きいこと、上位N個の中に含まれること等である。
【0093】
出力部14は、各種の情報を出力する。各種の情報とは、例えば、重要技術語である。出力とは、例えば、ディスプレイへの表示であるが、プリンタでのプリントアウト、スピーカからの音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどでも良い。
【0094】
重要技術語出力部141は、重要技術語取得部134が取得した1または2以上の重要技術語を、例えば、記録媒体に蓄積する。重要技術語出力部141は、例えば、重要技術語を抽出した特許文書に対応付けて、1以上の重要技術語を記録媒体に蓄積する。特許文書に対応付けることは、特許識別子に対応付けることと同意義である。
【0095】
または、例えば、受信部15が図示しない端末装置から端末識別子と対に取得指示を受信したことに応じて、重要技術語取得部134が取得した1以上の重要技術語を、重要技術語出力部141は、当該端末識別子に対応する端末装置に送信しても良い。
【0096】
なお、取得指示が2以上の文書識別子を有する場合、重要技術語出力部141は、文書識別子と1以上の重要技術語との組を、2組以上、出力しても良い。
【0097】
受信部15は、各種の情報を受信し得る。各種の情報とは、例えば、取得指示である。受信部15は、例えば、図示しない端末装置から、端末識別子と対に取得指示を受信しても良い。端末識別子とは、端末装置を識別する情報である。端末識別子は、例えば、MACアドレス、IPアドレス、IDなどであるが、端末装置のユーザを識別するユーザ識別子でもよく、端末装置を識別し得る情報であれば何でも良い。ユーザ識別子とは、ユーザを識別する情報である。ユーザ識別子は、例えば、住所・氏名、電話番号、メールアドレス、IDなどであるが、ユーザを識別し得る情報であれば何でも良い。
【0098】
送信部16は、各種の情報を送信し得る。各種の情報とは、例えば、重要技術語である。例えば、受信部15が取得指示を受信したことに応じて重要技術語取得部134が取得した1以上の重要技術語を、当該取得指示と対に受信された端末識別子で識別される端末装置に送信しても良い。
【0099】
格納部11、特許文書格納部111、および課題手がかり表現格納部112は、例えば、ハードディスクやフラッシュメモリといった不揮発性の記録媒体が好適であるが、RAMなど揮発性の記録媒体でも実現可能である。
【0100】
格納部11等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部11等で記憶されるようになってもよく、ネットワークや通信回線等を介して送信された情報が格納部11等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部11等で記憶されるようになっても良い。入力デバイスは、例えば、キーボード、マウス、タッチパネル等、何でも良い。
【0101】
受付部12は、入力デバイスを含むと考えても、含まないと考えても良い。受付部12は、入力デバイスのドライバーソフトによって、または入力デバイスとそのドライバーソフトとで実現され得る。
【0102】
処理部13、技術語候補取得部131、出現箇所決定部132、スコア取得部133、重要技術語取得部134、取得手段1311、削除手段1312、構造情報構築手段1331、およびスコア算出手段1332は、通常、MPUやメモリ等から実現され得る。処理部13等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。ただし、処理手順は、ハードウェア(専用回路)で実現しても良い。
【0103】
出力部14、および重要技術語出力部141は、ディスプレイやスピーカ等の出力デバイスを含むと考えても含まないと考えても良い。出力部14等は、出力デバイスのドライバーソフトによって、または出力デバイスとそのドライバーソフトとで実現され得る。
【0104】
受信部15は、通常、無線または有線の通信手段で実現されるが、放送を受信する手段で実現されても良い。
【0105】
送信部16は、通常、無線または有線の通信手段で実現されるが、放送手段で実現されても良い。
【0106】
次に、重要技術語取得装置1の動作について図2図4のフローチャートを用いて説明する。なお、図2図4のフローチャートは、例えば、取得指示が一の文書識別子のみを有しており、当該一の文書識別子で識別される一の特許文書に対して実行される処理である。取得指示が2以上の文書識別子を有する場合は、2以上の各文書識別子ごとに、同様の処理が実行される。
【0107】
図2は、重要技術語取得装置1の動作を説明するフローチャートである。
【0108】
(ステップS201)処理部13は、受付部12が取得指示を受け付けたか否かを判別する。受付部12が取得指示を受け付けたと判別された場合はステップS202に進み、受け付けていないと判別された場合はステップS201に戻る。
【0109】
(ステップS202)技術語候補取得部131は、ステップS201で受け付けられた取得指示が有する文書識別子で識別される特許文書から1以上の技術語候補を取得する処理である技術語候補取得処理を実行する。なお、技術語候補取得処理については、図3を用いて説明する。
【0110】
(ステップS203)処理部13は、変数iに初期値1をセットする。変数iとは、ステップS202で取得された1以上の技術語候補のうち、未選択の技術語候補を順番に選択していくための変数である。
【0111】
(ステップS204)処理部13は、i番目の技術語候補があるか否かを判別する。i番目の技術語候補が、あると判別された場合はステップS205に進み、ないと判別された場合はステップS208に進む。
【0112】
(ステップS205)出現箇所決定部132は、i番目の技術語候補について、その出現個所を決定する処理である出現箇所決定処理を実行する。なお、出現箇所決定処理については、図4を用いて説明する。
【0113】
(ステップS206)スコア取得部133は、i番目の技術語候補について、ステップS205で特定した出現箇所(例えば、文の種類、書類、およびタグ項目)に応じたスコアを取得する。なお、出現箇所に応じたスコアの取得方法については、前述したので繰り返さない。
【0114】
(ステップS207)処理部13は、変数iをインクリメントする。ステップS204に戻る。
【0115】
(ステップS208)重要技術語取得部134は、ステップS202で取得された1以上の技術語候補のうち、ステップS206で取得されたスコアが予め決められた条件を満たすほど高い1以上の各技術語候補を、重要技術語として取得する。
【0116】
(ステップS209)重要技術語出力部141は、ステップS208で取得された1以上の重要技術語を、ステップS201で受け付けられた取得指示が有する文書識別子に対応付けて出力する。ステップS201に戻る。
【0117】
なお、図2のフローチャートにおいて、重要技術語取得装置1の電源オンやプログラムの起動に応じて処理が開始し、電源オフや処理終了の割り込みにより処理は終了する。ただし、処理の開始または終了のトリガは問わない。
【0118】
図3は、ステップS302の技術語候補取得処理を説明するフローチャートである。
【0119】
(ステップS301)技術語候補取得部131は、特許文書に対して形態素解析を行い、2以上の用語を取得する。
【0120】
(ステップS302)技術語候補取得部131は、変数jに初期値1をセットする。変数jとは、ステップS301で取得された2以上の用語のうち、未選択の用語を順番に選択していくための変数である。
【0121】
(ステップS303)技術語候補取得部131は、j番目の用語があるか否かを判別する。j番目の用語が、あると判別された場合はステップS303に進み、ないと判別された場合は上位の処理にリターンする。
【0122】
(ステップS304)技術語候補取得部131を構成する取得手段1311は、j番目の用語が技術語候補条件を満たすか否かを判別する。j番目の用語が技術語候補条件を満たすと判別された場合はステップS305に進み、満たさないと判別された場合はステップS307に進む。
【0123】
(ステップS305)削除手段1312は、j番目の用語がノイズ条件を満たすか否かを判別する。j番目の用語がノイズ条件を満たすと判別された場合はステップS307に進み、満たさないと判別された場合はステップS306に進む。
【0124】
(ステップS306)取得手段1311は、j番目の用語を技術語候補として取得する。
【0125】
(ステップS307)技術語候補取得部131は、変数iをインクリメントする。ステップS303に戻る。
【0126】
図4は、ステップS205の出現箇所決定処理を説明するフローチャートである。
【0127】
(ステップS401)出現箇所決定部132は、i番目の技術語候補が含まれる文を特許文書から取得する。
【0128】
(ステップS402)出現箇所決定部132は、ステップS401で取得した文が課題手がかり表現を含むか否かを判別する。文が課題手がかり表現を含むと判別された場合はステップS403に進み、含まないと判別された場合はステップS404に進む。
【0129】
(ステップS403)出現箇所決定部132は、文の種類を「重要詳細文」に決定する。ステップS405に進む。
【0130】
(ステップS404)出現箇所決定部132は、文の種類を「一般詳細文」に決定する。
【0131】
(ステップS405)出現箇所決定部132は、i番目の技術語候補が含まれる書類を決定する。
【0132】
(ステップS406)出現箇所決定部132は、i番目の技術語候補が含まれる明細書内のタグ項目を決定する。上位処理にリターンする。
【0133】
以下、本実施の形態における重要技術語取得装置1の具体的な動作例について説明する。
【0134】
本例の手法は、特許文書内の項目等の意味関係を有向グラフとして表現した、教師なしグラフベース手法である。本例において、有向グラフは、以下の仮定に基づいて特許文書から構築される。
【0135】
(仮定1)発明の技術的特徴の要約度合は、請求項、「要約」、「符号の説明」の順に高くなっていく。従って、各項目の重要度は、請求項<「要約」<「符号の説明」となる。
【0136】
(仮定2)独立請求項は、従属請求項よりも重要である。
【0137】
(仮定3)明細書において、技術上の課題が含まれている文は、その課題を解決する重要な技術情報を含むことがあるため重要である。一方、その他の文には、一般的な技術情報が多く含まれており、発明の技術的特徴の記載は少ない。
【0138】
上記仮定1~3に基づき、各要素と技術語候補をノード、それらの意味関係を有向エッジとして表現した有向グラフの一例を図5に示す。
【0139】
本例で提案する手法は、次の3段階のステップで重要技術語を抽出する。(1)はじめに、技術語候補となるフレーズを選択する(技術語候補の選択)。(2)次に、特許文書から有向グラフを構築する(グラフ構築)。グラフ構築では、明細書を構成する文を、技術上の課題が含まれている文と、それ以外の文に分類しておく(重要/一般詳細文)。(3)最後に、グラフベースのランキングアルゴリズムを適用し、技術語候補をスコアリングする(ランキングと抽出)。
【0140】
なお、本例の「技術語候補の選択」は、図2のステップS202、および図3のS301~S307に対応する。また、「重要/一般詳細文」と「グラフ構築」は、図2のステップS205、および図4のS401~S406に対応する。さらに、「ランキングと抽出」は、図2のステップS208,S209に対応する。以下、各ステップの詳細を説明する。
【0141】
(技術語候補の選択)
【0142】
技術語候補Tiは、(形容詞)*(名詞)+のパターンに一致するフレーズとする。技術語候補は、「要約」、「特許請求の範囲」、「発明の詳細な説明」、「符号の説明」の各セクションから抽出する。また、フレーズに含まれる単語数に制限は設けない。キーワード抽出の先行研究では、候補フレーズはbi-gramにするなど、単語数に制限を設けていることがある。しかしながら、厳密な記述が求められる特許文書には、複雑で長い名詞句を多く含んでいるという特徴がある。そのため、技術語候補となる候補フレーズの単語数には制限を設けないこととした。次に、技術語候補に対してノイズ除去を行う。はじめに、技術語候補から、(?(?:上記 | 前記 | 請求項 \d* | 該)*)または((?:\d+ | 等)*)$の正規表現パターンに一致する文字列を削除する。次に、ストップワード辞書に含まれる単語と一致する技術語候補を除去する。本例では、ストップワード辞書としてSlothlibの提供する日本語ストップワード辞書に、請求項に頻出する“特徴”,“記載”の2単語を追加したものを使用する。
【0143】
(重要/一般詳細文)
【0144】
要詳細文と一般詳細文に分類する。明細書には、発明の背景や課題、解決手段、効果、実施例など、発明に関する具体的な内容が記述されているため、他の項目よりも技術情報が多く含まれている。特に、技術上の課題が含まれている箇所には、その課題を解決するための重要な技術情報が含まれていると考えられる。そこで、技術上の課題が含まれている詳細文を重要詳細文、その他の詳細文を一般詳細文と定義する。本例では、Cross-Bootstrapping法により自動的に取得された「ことで、」、「ことが可能であり、」、「ようにしたため、」といった課題手がかり表現(30件)を含む詳細文を重要詳細文とした。
【0145】
なお、Cross-Bootstrapping法については、「坂地泰紀,野中尋史,酒井浩之,増山繁:CrossBootstrapping:特許文書からの課題・効果表現対の自動抽出手法,電子情報通信学会論文誌 D, Vol. J93-D, No. 6, pp. 742?755 (2010)」に記載されている。
【0146】
(グラフ構築)
【0147】
ノードは、以下のように定義する。特許dから構築される有向グラフをG = (V,E)とする。VはUT,UC,UDS,UDN,VA,VSから成るノードの集合である。ここで、UTは技術語候補ノード集合、UCは請求項ノード集合、UDSは重要詳細文ノード集合、UDNは一般詳細文ノード集合である。VAとVSは、必ず1個のみ存在するノードであり、それぞれ特許dにおける「要約」セクションと「符号の説明」セクションを表している。技術語候補ノードUT,i は技術語候補Tiに、請求項ノードUC,jはj番目の請求項Cjに、重要詳細文ノードUDS,kは重要詳細文DSkに、一般詳細文ノードUDN,lは一般詳細文DNlにそれぞれ対応する。
【0148】
エッジは、以下のように定義する。はじめに、技術語候補の重要度を高める働きをするエッジについて説明する。請求項Cj内に技術語候補Tiが存在する場合、UC,jからUT,iへエッジ(UC,j,UT,i) ∈ Eを設ける。同様にして、「概要」セクション内または「符号の説明」セクションに技術語候補Tiが存在する場合、エッジ(VA,UT,i) ∈ E,(VS,UT,i) ∈ Eをそれぞれ設ける。
【0149】
次に、技術語候補ノードUT,iから出るエッジについて説明する。重要詳細文DSkまたは一般詳細文DNlに技術語候補Tiが存在する場合、エッジ(UT,i,UDS,k) ∈ E,(UT,i,UDN,l) ∈ Eをそれぞれ設ける。これらのエッジにより、多くの文に出現する一般的な(すなわち、重要でない)技術語候補の重要度を下げることができる。しかし、重要詳細文に偏って出現する技術語候補は、そうでないものよりも重要度が高いと考えられる。これを考慮するため、任意の重要詳細文ノードUDS,kから任意の請求項ノードUC,jへエッジ(UDS,k,UC,j) ∈ Eを設ける。
【0150】
従って、グラフG内にUT,i → UDS,k → UC,j → UT,i →・・・のような循環グラフが構築される。このグラフGに対して後述するPageRankアルゴリズムを適用した場合、重要詳細文に偏って出現する技術語候補のスコア(重要度)は、一般詳細文に多数出現するものよりも高くなりやすくなる。
【0151】
最後に、特許の項目間の意味関係を表すエッジについて説明する。独立請求項は下に連なる従属請求項よりも重要であることを考慮するため、従属請求項のノードから独立請求項のノードへエッジを設ける。なお、本例では単純化のため、請求項第1項が独立請求項、第2項以下が従属請求項とする。従って、請求項間のエッジは(UC,j,UC,1) ∈ E (j ? 2)のように設けられる。また、各項目の重要度が請求項<「要約」<「符号の説明」となることを考慮するために、任意の請求項ノードUC,jから要約ノードVAへ、さらに任意の請求項ノードUC,jおよび要約ノードVAから符号の説明ノードVSへそれぞれエッジ (UCj,VA) ∈ E,(UCj,VS) ∈ E,(VA,VS) ∈ Eを設ける。
【0152】
(ランキングと抽出)
【0153】
グラフ構築後、各ノードのスコアを計算し、技術語候補ノードのみを選択する。最後に、スコア上位N件の技術語候補を特許文書dにおける重要技術語として抽出する。ノードのスコアの計算には、TextRankと同様にPageRankアルゴリズムを適用する。ノードviのPageRankスコアS(vi)は、次の式(数1)で再帰的に計算することによって得られる。
【0154】
【数1】
【0155】
ここで、I(vi)はviへ接続するノードの集合、Out(vj)はvjから出るエッジの数、αはダンピングファクターである。
【0156】
(評価実験のためのデータセット)
【0157】
本例では、重要技術語の抽出性能を評価するためにオリジナルのデータセットを作成した。はじめに、NTCIR-6の日本語公開特許公報全文データ(期間:1993~2002 年,文書数:3,496,252件)から,国際特許分類のセクションA~Hに属する特許をセクションごとに10件ずつランダムサンプリングした。次に、サンプリングした各特許文書から、発明上特に重要と思われる技術語を、弁理士を含めた3名のアノテーターの合議により選択した。このとき、重要技術語は特許1件あたり5個を目安として選択した。なお、化学・冶金分野のセクションCの特許は、発明において重要な要素が化学式で表現されることが多いため、データセットから除外した。
【0158】
(評価実験)
【0159】
提案手法の有効性を検証するために、複数の教師なしキーワード抽出手法との間で重要技術語抽出の性能の比較を行った。比較手法として、統計的手法のTF-IDF、グラフベース手法のTextRank,PositionRankを選択した。TF-IDFのIDFスコアは、NTCIR-6データセットからランダムサンプリングされた10万件の特許から計算したものを使用した。TextRank とPositionRankは、候補単語をノードとし、候補単語wiとwjが前後2単語内で共起した場合にエッジを設けた無向グラフを構築した。これら3つの比較手法では、先行研究に従い、技術語候補を構成する単語のスコアの総和を、その技術語候補のスコアとした。
【0160】
PageRankアルゴリズムを用いているグラフベースの手法(提案手法,TextRank,PositionRank)は、ダンピングファクターαを0.85に設定し、PageRankの反復計算を100ステップあるいは1ステップ前のスコアSとの差が0.001より小さくなるまで実行した。実験に際し、全ての手法に関して、特許1件から抽出する重要技術語の個数は5つとした。また、技術語候補およびその技術語を構成する候補単語は「技術語候補の選択」記載の方法で選択し、態素解析器にはGiNZAを使用した。抽出性能の評価指標にはPrecision,Recall,F値を用いた。
【0161】
(評価結果)
【0162】
提案手法および比較手法の評価結果を図6に示す。全セクションでの評価結果を見ると、比較手法の中で最も抽出性能が高いPositionRankよりも、提案手法の方が48.94ポイント F値が高かった。さらに、各セクションごとの結果でも、提案手法が一貫して最も高い抽出性能を示している。
【0163】
次に、特許10件分の抽出結果をランダムサンプリングし、 比較手法のエラーアナリシスを行った。各手法ごとに誤抽出の内容を見ると、技術語と思われるフレーズに不必要な単語が付いた技術語候補を誤抽出しているケースが多数確認できた。例えばTF-IDFでは、1の特許文書から“各シェル”,“シェル上”といった、“シェル”が含まれた技術語候補を複数個誤抽出していた。このタイプの誤抽出が、TF-IDFで45件中24件、TextRankで44件中17件、PositionRankで44件中16件存在した。
【0164】
このような誤抽出が生じる要因として、比較手法の技術語候補スコアの算出方法が考えられる。比較手法では、単語ごとにスコアを求めており、技術語候補のスコアは構成単語のスコアの総和としている。しかしながら、提案手法と同様にしてスコア算出の単位を単語から技術語候補に変更すると、ほとんどの技術語候補の出現頻度が非常に低くなる可能性がある。そのため、TF-IDFのような頻度に基づく手法は、技術語候補のスコアがうまく計算できなくなる恐れがある。
【0165】
一方で、TextRankやPositionRankといった従来のグラフベースの手法では、スコア算出の単位を単語から技術語候補に変更したとしても顕著な効果は現れないと考えられる。その理由として、厳密さが求められる特許文書では、多くの修飾語句を用いて用語の意味を限定する記述をしていることが挙げられる。従来のグラフベースの手法は、ある範囲内での候補単語・フレーズの共起に基づいてエッジを設けているため、技術語周辺の修飾語句の影響が強く現れてしまう可能性がある。
【0166】
これらの理由から、語の統計量に依存している従来手法のアプローチでは、重要技術語抽出は困難であると考えられる。一方、提案手法は、特許文書の意味的な構造に着目することで上記の問題を回避しているため、結果として最も高い抽出性能を示したと考えられる。
【0167】
以上、本実施の形態によれば、特許文書から重要度が高い技術語を的確に取得できる重要技術語取得装置1が実現される。
【0168】
また、技術語候補条件が1以上の形容詞と1以上の名詞の集合であることであることにより、重要技術語取得装置1は、特許文書から重要度が高い技術語を的確かつ簡易に取得できる。
【0169】
また、重要技術語取得装置1は、技術語候補条件を満たす用語である技術語候補を特許文書から取得し、当該取得した文字列のうち、ノイズ条件を満たす文字列を削除することにより、特許文書から重要度が高い技術語をより的確に取得できる。
【0170】
また、重要技術語取得装置1は、技術語候補が含まれる文の種類を決定する、または技術語候補が含まれる書類を決定する、または技術語候補が含まれる明細書内のタグ項目を決定し、技術語候補が含まれる文の種類に応じて異なるスコアを取得する、または技術語候補が含まれる書類に応じて異なるスコアを取得する、または技術語候補が含まれる明細書内のタグ項目に応じて異なるスコアを取得することにより、技術語候補の出現位置に応じたスコアを的確に取得できる。
【0171】
また、課題手がかり表現格納部112に1以上の課題手がかり表現が格納されており、重要技術語取得装置1は、技術語候補が、1以上の課題手がかり表現を含む重要詳細文に含まれる場合に、技術語候補が含まれる文の種類を「重要詳細文」であると決定し、技術語候補が含まれる書類を決定し、かつ技術語候補が含まれる明細書内のタグ項目を決定する。そして、重要技術語取得装置1は、当該決定した文の種類、書類、およびタグ項目に応じて、スコアを取得することにより、技術語候補の出現位置に応じたスコアを的確に取得できる。
【0172】
また、重要技術語取得装置1は、技術語候補が、1以上の課題手がかり表現を含む重要詳細文に含まれる場合に、技術語候補が含まれる文の種類を「重要詳細文」であると決定し、技術語候補が、重要詳細文以外の文に含まれる場合に、技術語候補が含まれる文の種類を「一般詳細文」であると決定し、技術語候補が、技術語候補が要約書に含まれる場合に、技術語候補が含まれる書類を「要約書」と決定し、技術語候補が、特定の請求項に含まれる場合に、技術語候補が含まれるタグ項目を「特定の請求項」と決定し、技術語候補が、明細書の中の符号の説明の項目に含まれる場合に、技術語候補が含まれるタグ項目を「符号の説明」と決定する。そして、重要技術語取得装置1は、当該取得した技術語候補、技術語候補に対して決定された文の種類、書類、およびタグ項目の各々をノードとし、技術語候補と、文の種類、書類、およびタグ項目の間にエッジを付加した有向グラフを構築し、当該構築した有向グラフに対して、ページランクのアルゴリズムにより、技術語候補のノードのスコアを算出することにより、技術語候補の出現位置に応じたスコアを容易かつ的確に取得できる。
【0173】
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD-ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。
【0174】
なお、本実施の形態における情報処理装置を実現するソフトウェアは、例えば、以下のようなプログラムである。つまり、このプログラムは、特許に関する特許文書が格納される特許文書格納部111にアクセス可能なコンピュータを、予め決められた条件である技術語候補条件を満たす用語である技術語候補を、前記特許文書から取得する技術語候補取得部131と、前記特許文書における前記技術語候補の1以上の出現箇所を決定する出現箇所決定部132と、前記1以上の出現箇所に応じて、前記技術語候補のスコアを取得するスコア取得部133と、前記スコアが予め決められた条件を満たすほど高い技術語候補を、重要技術語として取得する重要技術語取得部134と、前記重要技術語を出力する重要技術語出力部141として機能させるためのプログラムである。
【0175】
図7は、本実施の形態におけるプログラムを実行して、重要技術語取得装置1を実現するコンピュータシステム900の外観図である。本実施の形態は、コンピュータハードウェアおよびその上で実行されるコンピュータプログラムによって実現され得る。図7において、コンピュータシステム900は、ディスクドライブ905を含むコンピュータ901と、キーボード902と、マウス903と、ディスプレイ904とを備える。なお、キーボード902やマウス903やディスプレイ904をも含むシステム全体をコンピュータと呼んでも良い。
【0176】
図8は、コンピュータシステム900の内部構成の一例を示す図である。図8において、コンピュータ901は、ディスクドライブ905に加えて、MPU911と、ブートアッププログラム等のプログラムを記憶するためのROM912と、MPU911に接続され、アプリケーションプログラムの命令を一時的に記憶すると共に、一時記憶空間を提供するRAM913と、アプリケーションプログラム、システムプログラム、およびデータを記憶するストレージ914と、MPU911、ROM912等を相互に接続するバス915と、外部ネットワークや内部ネットワーク等のネットワークへの接続を提供するネットワークカード916と、を備える。ストレージ914は、例えば、ハードディスク、SSD、フラッシュメモリなどである。
【0177】
コンピュータシステム900に、重要技術語取得装置1の機能を実行させるプログラムは、例えば、DVD、CD-ROM等のディスク921に記憶されて、ディスクドライブ905に挿入され、ストレージ914に転送されても良い。これに代えて、そのプログラムは、ネットワークを介してコンピュータ901に送信され、ストレージ914に記憶されても良い。プログラムは、実行の際にRAM913にロードされる。なお、プログラムは、ディスク921、またはネットワークから直接、ロードされても良い。また、ディスク921に代えて他の着脱可能な記録媒体(例えば、DVDやメモリカード等)を介して、プログラムがコンピュータシステム900に読み込まれても良い。
【0178】
プログラムは、コンピュータの詳細を示す901に、重要技術語取得装置1の機能を実行させるオペレーティングシステム(OS)、またはサードパーティプログラム等を必ずしも含んでいなくても良い。プログラムは、制御された態様で適切な機能やモジュールを呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいても良い。コンピュータシステム900がどのように動作するのかについては周知であり、詳細な説明は省略する。
【0179】
なお、上述したコンピュータシステム900は、サーバまたは据え置き型のPCであるが、重要技術語取得装置1は、例えば、タブレット端末やスマートフォンやノートPCといった、携帯端末で実現されても良い。この場合、例えば、キーボード902およびマウス903はタッチパネルに、ディスクドライブ905はメモリカードスロットに、ディスク921はメモリカードに、それぞれ置き換えられることが望ましい。図示しないサーバや端末装置等も、基本的なハードウェア構成は、上記と同様で良い。ただし、以上は例示であり、重要技術語取得装置1を実現するコンピュータのハードウェア構成は問わない。
【0180】
なお、上記プログラムにおいて、情報を送信する送信ステップや、情報を受信する受信ステップなどでは、ハードウェアによって行われる処理、例えば、送信ステップにおけるモデムやインターフェースカードなどで行われる処理(ハードウェアでしか行われない処理)は含まれない。
【0181】
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であっても良い。すなわち、一のコンピュータが集中処理を行ってもよく、あるいは複数のコンピュータが分散処理を行っても良い。
【0182】
また、上記実施の形態において、一の装置に存在する2以上の通信手段(受信部15、送信部16など)は、物理的に一の媒体で実現されてもよいことは言うまでもない。
【0183】
また、上記実施の形態において、各処理(各機能)は、単一の装置(システム)によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されても良い。
【0184】
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
【産業上の利用可能性】
【0185】
以上のように、本発明にかかる重要技術語取得装置は、特許文書から重要度が高い技術語を的確に取得できるという効果を有し、重要技術語取得装置等として有用である。
【符号の説明】
【0186】
1 重要技術語取得装置
11 格納部
12 受付部
13 処理部
14 出力部
15 受信部
16 送信部
111 特許文書格納部
112 表現格納部
131 技術語候補取得部
132 出現箇所決定部
133 スコア取得部
134 重要技術語取得部
141 重要技術語出力部
1311 取得手段
1312 削除手段
1331 構造情報構築手段
1332 スコア算出手段
図1
図2
図3
図4
図5
図6
図7
図8