IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 一般財団法人工業所有権協力センターの特許一覧

特開2022-103710文書処理装置及び分類付与支援システム
<>
  • 特開-文書処理装置及び分類付与支援システム 図1
  • 特開-文書処理装置及び分類付与支援システム 図2
  • 特開-文書処理装置及び分類付与支援システム 図3
  • 特開-文書処理装置及び分類付与支援システム 図4
  • 特開-文書処理装置及び分類付与支援システム 図5
  • 特開-文書処理装置及び分類付与支援システム 図6
  • 特開-文書処理装置及び分類付与支援システム 図7
  • 特開-文書処理装置及び分類付与支援システム 図8
  • 特開-文書処理装置及び分類付与支援システム 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022103710
(43)【公開日】2022-07-08
(54)【発明の名称】文書処理装置及び分類付与支援システム
(51)【国際特許分類】
   G06F 40/166 20200101AFI20220701BHJP
   G06Q 50/18 20120101ALI20220701BHJP
【FI】
G06F40/166
G06Q50/18 310
【審査請求】未請求
【請求項の数】6
【出願形態】OL
(21)【出願番号】P 2020218505
(22)【出願日】2020-12-28
(71)【出願人】
【識別番号】502415906
【氏名又は名称】一般財団法人工業所有権協力センター
(74)【代理人】
【識別番号】100108855
【弁理士】
【氏名又は名称】蔵田 昌俊
(74)【代理人】
【識別番号】100103034
【弁理士】
【氏名又は名称】野河 信久
(74)【代理人】
【識別番号】100179062
【弁理士】
【氏名又は名称】井上 正
(74)【代理人】
【識別番号】100153051
【弁理士】
【氏名又は名称】河野 直樹
(74)【代理人】
【識別番号】100199565
【弁理士】
【氏名又は名称】飯野 茂
(74)【代理人】
【識別番号】100162570
【弁理士】
【氏名又は名称】金子 早苗
(72)【発明者】
【氏名】上田 尚純
(72)【発明者】
【氏名】保坂 俊春
(72)【発明者】
【氏名】蕗田 亨
【テーマコード(参考)】
5B109
5L049
【Fターム(参考)】
5B109QB11
5B109RB31
5L049CC33
(57)【要約】      (修正有)
【課題】複数の用語群あるいは複数の文書を表示画面上で一覧可能に表示し、これら用語群と文書との関連性を容易に把握できる文書処理装置及び分類付与支援システムを提供する。
【解決手段】文書処理装置は、文書を文書表示画面上に表示する文書表示手段及び1又は複数の用語からなる用語群に基づきマルチスペクトル画面を表示する用語スペクトル表示手段を有する。マルチスペクトル画面には、用語群の用語が文書に含まれる場合に、その用語に設定された色のスペクトルバーで文書内位置を指示する用語スペクトルバー列を配置した用語群ボックスが、複数の用語群ごとに並べて表示される。また、ユーザがマルチスペクトル画面に表示された用語群ボックスを選択した場合には、選択された用語群ボックスに含まれるスペクトルバーに対応する文書内の用語が強調表示される。
【選択図】図3
【特許請求の範囲】
【請求項1】
複数の文書を選択的に表示する文書表示手段と、
1又は複数の用語からなる用語群を複数含む用語群データセットに基づきスペクトル表示を行う用語スペクトル表示手段であって、前記用語群の用語が前記文書に含まれる場合に、当該用語に設定された色のスペクトルバーで当該用語の前記文書内位置を指示する用語スペクトルバー列を配置した用語群ボックスを、複数の用語群毎に並べて表示する、用語スペクトル表示手段と、を備え、
ユーザが特定の用語群ボックスを選択した場合には、前記文書表示手段は、前記選択された用語群ボックスの用語スペクトルバー列に含まれるスペクトルバーに対応する前記文書内の用語を、当該用語に設定された色で強調表示するように構成されている、
文書処理装置。
【請求項2】
前記用語群に含まれる用語を、各用語の色の設定とともに、複数の用語群ごとに表示し、用語の追加、削除、編集及び色の設定を可能とする用語群表示手段をさらに備える、
請求項1に記載の文書処理装置。
【請求項3】
前記用語群に含まれる用語は、種用語と共起用語からなる文意式を構成するものであり、
前記用語スペクトル表示手段は、前記用語群ボックスの前記用語スペクトルバー列において、前記文意式に対応する種用語と共起用語の組み合わせが存在する前記文書内位置に限ってスペクトルバーを表示する、
請求項1又は2に記載の文書処理装置。
【請求項4】
請求項1ないし3のいずれか一項に記載された文書処理装置と、
前記文書に分類を付与する分類付与手段と、
を備え、
前記複数の用語群は、複数の分類に対応づけられている、
分類付与支援システム。
【請求項5】
既に分類記号が付与された複数の正例及び負例の文書に基づいて、各分類の意味に対応する用語群を抽出する用語群作成手段をさらに備える、
請求項4に記載された分類付与支援システム。
【請求項6】
複数の文書を選択的に表示する文書表示手段と、
ユーザが設定した1又は複数の用語に基づきスペクトル表示を行う用語スペクトル表示手段であって、前記用語が前記文書に含まれる場合に、当該用語とともに設定された色のスペクトルバーで当該用語の前記文書内位置を指示する用語スペクトルバー列を配置した文書ボックスを、前記複数の文書毎に並べて表示する、用語スペクトル表示手段と、を備え、
ユーザが特定の文書ボックスを選択した場合には、前記文書表示手段は、前記選択された文書ボックスに対応する文書を表示し、用語スペクトルバー列に含まれるスペクトルバーに対応する前記文書内の用語を、当該用語に設定された色で強調表示するように構成されている、
文書処理装置。

【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書処理装置及び分類付与支援システムに関する。
【背景技術】
【0002】
コンピュータの画面上に複数の文書データを表示させ、これらの文書の内容を対比することは普通に行われている。このような文書の対比作業では、対比すべき複数の文書の内容のどこが一致しているかを目視で確認したり、ソフトウエアを利用して異なっている箇所を強調表示したりすることが行われている。
【0003】
従来、文書データの閲覧性を高めるとともに、複数の文書データの対比のための把握作業時間を短縮するインターフェースを持つ文書管理システムが提案されている(特許文献1参照)。特許文献1の文書管理システムでは、表示装置に2つの特許文献を同時に表示させ、一方の特許文献の記述内容に類似する内容が記述された他方の特許文献の領域を表示装置上で強調表示させることにより、特許文献間の関連度を視覚的に把握できるようにしている。
【0004】
また、複数の文書データを対比する業務の一例として、分類を付与する文書と分類が記載された文書を対比して分類付与を行う分類付与業務が知られており、このような分類付与業務を支援あるいは自動化する装置が提案されている(特許文献2、特許文献3参照)。特許文献2の分類付与支援装置では、分類を付与する文書とFタームのような分類が記載された文書を入力し、入力されたいずれか一方の文書の単語を抽出し、抽出した単語により他方の文書を検索し、他方の文書にその単語が存在していた場合には、両方の文書においてその単語を強調表示している。また、特許文献3の文献解析装置では、検索条件を、文献を意味表現として区切りがつく所定の範囲を単位として区切った各範囲で基本要素を含む文意式により記述した推定用辞書データを用い、この推定用辞書データと文献用語データとの類似度をスコアで表して、検索条件の満たし具合の程度を認識するようにしている。
【先行技術文献】
【特許文献】
【0005】
【特許文献1】特開2010-267062号公報
【特許文献2】特開2008-171164号公報
【特許文献3】特開2017-102976号公報
【発明の概要】
【発明が解決しようとする課題】
【0006】
分類を付与する文書と分類が記載された文書を対比して分類付与を行う場合、従来技術のように、文書同志の分割領域単位の対比あるいは特許文献とFターム表との全体としての対比だけではなく、各分類に対応づけられた複数の用語群が特許文献とどの程度関連しているのかを分かりやすく対比したいといったニーズが存在する。さらに、特許分類表と特許文献とを対比する場合、従来技術のように、両者を並べて表示するだけではなく、分類に対応づけられた用語群又は特許文献を、画面上に複数並べて表示して対比できるようなユーザインターフェースが求められている。
【0007】
また、コンピュータによる分類自動付与技術を用いて精度の高い分類付与を行おうとすると、特許分類と関連する技術用語とを対応付けた分類付与辞書を充実させることが必要になる。しかし、特許分類で定義された分類の中には、付与される特許文献数が少ない分類が多数を占めており、機械学習を利用しようとしても分類付与辞書の学習が困難なため、コンピュータによる分類自動付与だけでは、人並みの付与精度を実現できない状況にある。このため、高品質な特許分類付与を行うために、計算機による自動付与を補助的に利用しながら、最終的には、人手により特許文献に分類記号を付与することが必要となる。このように人手により分類記号の付与を行う場合、特許文献中において、特許分類表に定義された分類に関係する記載箇所(分類付与根拠箇所)を迅速に発見できるような支援システムが求められている。
【0008】
本発明は上記事情を鑑みて成されたものであって、複数の用語群あるいは複数の文書を表示画面上で一覧可能に表示し、これら用語群と文書との関連性を容易に把握できる文書処理装置を提供することを目的とする。さらに、本発明は、当該文書処理装置を用いて高品質な分類付与を支援する分類付与支援システムを提供することを更なる目的とする。
【課題を解決するための手段】
【0009】
本発明の第1態様の文書処理装置は、複数の文書を選択的に表示する文書表示手段と、1又は複数の用語からなる用語群を複数含む用語群データセットに基づきスペクトル表示を行う用語スペクトル表示手段であって、前記用語群の用語が前記文書に含まれる場合に、当該用語に設定された色のスペクトルバーで当該用語の前記文書内位置を指示する前記用語スペクトルバー列を配置した用語群ボックスを、複数の用語群毎に並べて表示する、用語スペクトル表示手段と、を備え、ユーザが特定の用語群ボックスを選択した場合には、前記文書表示手段は、前記選択された用語群ボックスの用語スペクトルバー列に含まれるスペクトルバーに対応する前記文書内の用語を、当該用語に設定された色で強調表示するように構成されていることを特徴とする。
【0010】
本発明の第2態様の分類付与支援システムは、第1態様の文書処理装置と、前記文書に分類を付与する分類付与手段と、を備え、前記複数の用語群は、複数の分類に対応づけられていることを特徴とする。
【0011】
本発明の第3態様の文書処理装置又は分類付与支援システムは、前記用語群に含まれる用語は、種用語と共起用語からなる文意式を構成するものであり、前記用語スペクトル表示手段は、前記用語群ボックスの前記用語スペクトルバー列において、前記文意式に対応する種用語と共起用語の組み合わせが存在する前記文書内位置に限ってスペクトルバーを表示することを特徴とする。
【0012】
本発明の第4態様の文書処理装置は、複数の文書を選択的に表示する文書表示手段と、ユーザが設定した1又は複数の用語に基づきスペクトル表示を行う用語スペクトル表示手段であって、前記用語が前記文書に含まれる場合に、当該用語とともに設定された色のスペクトルバーで当該用語の前記文書内位置を指示する用語スペクトルバー列を配置した文書ボックスを、前記複数の文書毎に並べて表示する、用語スペクトル表示手段と、を備え、ユーザが特定の文書ボックスを選択した場合には、前記文書表示手段は、前記選択された文書ボックスに対応する文書を表示し、用語スペクトルバー列に含まれるスペクトルバーに対応する前記文書内の用語を、当該用語に設定された色で強調表示するように構成されていることを特徴とする。
【発明の効果】
【0013】
本発明によれば、複数の用語群あるいは複数の文書を表示画面上で一覧可能に表示したことから、複数の用語群と文書との関連性を容易に把握できる文書処理装置を提供することができる。さらに、本発明によれば、複数の用語群を複数の分類に対応づけられたものとすることで、文書全体の内容把握と分類付与根拠箇所の発見を迅速に行うことが可能となり、当該文書処理装置を用いて高品質な分類付与を支援する分類付与支援システムを提供することができる。
【図面の簡単な説明】
【0014】
図1図1は、第1実施形態の文書処理装置の一構成例を概略的に示すブロック図である。
図2図2は、第1実施形態の文書処理装置により表示された文書表示画面の一例を示す図である。
図3図3は、第1実施形態の文書処理装置により表示されたマルチスペクトル画面の一例を示す図である。
図4図4は、第1実施形態の文書処理装置のマルチ用語パネルの一例を示す図である。
図5図5は、第1実施形態の文書処理装置の用語群作成手順を示す図である。
図6図6は、第1実施形態の文書処理装置の用語群作成手順を示す図である。
図7図7は、第1実施形態の文書処理装置の動作の一例を説明するためのフローチャートである。
図8図8は、第3実施形態の文書処理装置又は分類付与支援システムの用語群作成手順を示す図である。
図9図9は、第4実施形態の文書処理装置により表示された文書マルチスペクトル画面の一例を示す図である。
【発明を実施するための形態】
【0015】
以下、本発明の複数の実施形態について、図面を参照して詳細に説明する。なお、以下の説明において、既に説明済みである構成と同一又は類似した構成及び要素については、同一の符号を付して説明を省略する。
【0016】
<第1実施形態>
第1実施形態の文書処理装置10の一例について、図面を参照して以下に説明する。
【0017】
図1は、第1実施形態の文書処理装置10の一構成例を概略的に示すブロック図である。第1実施形態の文書処理装置10は、文書表示手段11、用語スペクトル表示手段12、用語群表示手段13及び用語群作成手段14を含んでおり、入力装置20、表示装置30、文書データベース40及び用語群データベース50に接続されている。なお、分類付与手段15は、後述する第2実施形態にて詳細に説明する。
【0018】
文書処理装置10に含まれる文書表示手段11、用語スペクトル表示手段12、用語群表示手段13及び用語群作成手段14は、これら手段の機能を実現するプログラムを実行するプロセッサ、プログラムを格納したメモリあるいは外部記憶装置等により実現される。プロセッサは、典型的にはCPU(Central Processing Unit)及び/又はGPU(Graphics Processing Unit)であるが、マイコン、FPGA(Field Programmable Gate Array)、又はDSP(Digital Signal Processor)、などであってもよい。プログラムを格納したメモリは、プロセッサによって実行されるプログラム及び当該プロセッサによって使用されるデータなどを一時的に格納する。外部記憶装置は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)などの不揮発性記憶媒体を含み得る。
【0019】
入力装置20は、例えばユーザが操作することにより、文書処理装置10に対する種々の動作指令を入力するための装置であって、例えば、マウス、キーボード、タッチパネル、マイクなどの装置を含み得る。
【0020】
表示装置30は、例えば文書処理装置10から出力される文書表示画面100、マルチスペクトル画面200及びマルチ用語パネル300をユーザに提示するための装置であって、例えば、液晶表示装置、有機EL表示装置などの平面表示装置が含まれる。
【0021】
文書データベース40は、電子的形態の文書を複数格納するデータベースである。文書データベース40に格納された文書は、用語群と対比される文書である。
【0022】
用語群データベース50は、用語群データセットを複数格納するデータベースである。1つの用語群データセットは、1又は複数の用語からなる用語群を複数含んでおり、各用語群はそれぞれ何らかの意味に対応づけられている。なお、文書データベース40あるいは用語群データベース50は、文書処理装置10に外付けされる外部記憶装置により構成されてもよいが、ネットワーク経由で接続されたファイルサーバにより構成されてもよい。
【0023】
文書表示手段11は、文書表示画面100上に文書を表示する機能を有する。文書表示手段11は、ユーザから文書の文献番号を取得すると、文書データベース40にアクセスして、指示された文献番号に相当する文書を取得し、その文書の内容を文書表示画面100上に所定のレイアウトで表示する。
【0024】
また、文書表示手段11は、ユーザにより検索キーワードが入力されると、入力された検索キ-ワードが文書内に含まれるか否かを判定し、文書内に含まれる場合には、該当する用語を文書内で強調表示するとともに、この用語が出現する文書内位置を指示するスペクトルバーを表示する。
【0025】
用語スペクトル表示手段12は、用語群データベース50から1つの用語群データセットを取得し、これに基づきマルチスペクトル画面200を生成し、文書を表示している文書表示画面100上の一部に表示する機能を有する。マルチスペクトル画面200には、用語群データセットに含まれる複数の用語群ごとに用語群ボックス210が設けられ、各用語群ボックス210には、各用語群の用語リスト211と、当該用語群に含まれる用語の文書内位置をスペクトルバーで指示する用語スペクトルバー列212が表示される。
【0026】
文書表示手段11は、マルチスペクトル画面200に対するユーザ操作に応答して、文書のうちの着目したいテキストを強調表示する機能も有している。例えば、文書表示手段11は、マルチスペクトル画面200に表示された用語群ボックス210に対する所定のユーザ操作を検出して、文書の該当する用語を所定の色で強調表示する。
【0027】
用語群表示手段13は、マルチ用語パネル300を表示し、用語群を新たに作成したり、編集したりする機能を提供する。用語群表示手段13は、用語群に含まれる用語を、各用語の色の設定とともに、複数の用語群ごとに表示し、用語の追加、削除、編集及び色の設定を行う。また、用語群表示手段13は、用語群データベース50とのファイル入出力や用語スペクトル表示手段12へのエクスポート機能を有している。
【0028】
用語群作成手段14は、用語群データセットを構成する用語群を新たに作成するために必要な用語を機械的に生成する。
【0029】
図2は、第1実施形態の文書処理装置10により表示された文書表示画面100の一例を示す図である。ここでは、文書表示手段11によって表示された文書表示画面100の一例を概略的に示している。
【0030】
図2に示された文書表示画面100には、文書の一例として、特許文献が表示されている。文書表示画面100は、「文献番号一覧」欄(A)、「用語パネル」欄(B)、「段落構成」欄(C)、「明細書テキスト」欄(D)、「スペクトルバー」欄(E)、「符号一覧」欄(F)、「図面」欄(G)を含んだレイアウトを有している。なお、このようなレイアウトに限ることなく、他のレイアウトを採用してもよい。
【0031】
「文献番号一覧」欄(A)は、ユーザにより入力された特許文献番号を表示する欄である。文書表示手段11は、ここに表示される文献番号がクリックなどにより選択されたことを検出すると、その文献番号を反転表示するとともに、その文献番号に対応する特許文献を文書データベース40より取得し、所定のレイアウトにて文書表示画面100に表示する。
【0032】
「用語パネル」欄(B)は、表示中の特許文献を検索するための検索キーワードを色情報とともに表示する欄である。図2の例では、「衣、服・・・前掛け」が赤色の背景色で表示され、「手、首・・・すね」が灰色の背景色で表示され、「作業衣、水上・・・釣」が青色の背景色で表示されている。
【0033】
ユーザは、「用語パネル」欄(B)に表示された色付実行、色付解除、全用語クリア、全色クリアのコマンドボタン、及び、色1~色32の色テーブルを使用して、検索キ-ワード単位あるいは検索キ-ワード群に対して文字色や背景色などの色情報を設定することができる。設定すべき検索キ-ワードあるいは色情報は、ユーザがマニュアル入力してもよいが、後述するように、マルチ用語パネル300からインポートしてもよい。
【0034】
「段落構成」欄(C)は、選択中の文書に含まれる段落見出し、段落記号等を表示する欄である。特許文献の場合、「段落構成」欄(C)には、[書誌的事項]、[要約]、[特許請求の範囲]、[発明の詳細な説明]などの大見出しと、[請求項]、[技術分野]、[背景技術]などの小見出しが表示される。
【0035】
「明細書テキスト」欄(D)は、特許文献に記載された特許請求の範囲や明細書の内容をテキスト表示するための欄である。明細書テキストが「明細書テキスト」欄(D)に収まらない場合には、スクロール表示が行われる。表示中の明細書テキストには、「用語パネル」欄(B)に設定された検索キ-ワードに対応する用語が、設定された色情報で強調表示される。図2の例では、例えば、「衣」が赤色の背景色、「手」が灰色の背景色で表示されている。なお、「用語パネル」欄(B)に設定された検索キーワードから、同義語辞書を参照し、設定された検索キーワードの同義語も同じ検索キーワードとして強調表示するようにしてもよい。この場合、同義語辞書は、事前に文書処理装置10内に格納されているとする。
【0036】
「スペクトルバー」欄(E)は、検索キーワードに対応する用語の明細書テキスト内位置を指示するスペクトルバーを一覧表示する欄である。図2の例では、スペクトルバーの列が6本表示されており、例えば、1つ目のスペクトルバー列には、検索キーワード「衣、服・・・前掛け」に対応する用語が明細書テキスト内で出現した位置が赤色のバーで表示され、2つ目のスペクトルバー列には、検索キーワード「手、首・・・すね」に対応する用語の明細書テキスト内位置が灰色のバーで表示されている。
【0037】
スペクトルバーは、対応する検索キーワードの背景色で表示されているが、複数の検索キーワードに同じ背景色が設定されている場合、これら複数の検索キーワードを一つのグループとして扱い、同じ色のスペクトルバー列として表示される。なお、文書内に出現しない検索キ-ワードのグループについては、スペクトルバー列を非表示としてもよい。
【0038】
ユーザは、スペクトルバーを見ながら明細書テキストをスクロールすることにより、検索キ-ワードが存在している明細書テキスト中の位置まで容易に表示内容を移動させることができる。また、スペクトルバーのうちの1つをクリックすることにより、明細書テキストの対応する位置まで表示内容をジャンプさせることができる。
【0039】
「符号一覧」欄(F)は、図に付された参照符号とその説明を表示する欄である。また、「図」欄(G)は、特許文献に含まれている図面を縮小して配列し、表示する欄である。
【0040】
図3は、第1実施形態の文書処理装置10により表示されたマルチスペクトル画面200の一例を示す図である。
【0041】
用語スペクトル表示手段12は、ユーザによるマルチスペクトル画面200の表示指示を検出し、用語群データセットを特定する情報を受信すると、指示された用語群データセットを用語群データベース50から取得し、それに基づいてマルチスペクトル画面200を生成する。そして、生成したマルチスペクトル画面200を文書表示画面100上の一部に重畳表示する。マルチスペクトル画面200内には、用語群データセットの各用語群に対応する用語群ボックス210が複数設けられており、各用語群ボックス210内には、その用語群の名称(図3では、「AA00」、「AA10」など)とともに用語リスト211と用語スペクトルバー列212が予め設定された色情報にしたがって表示される。
【0042】
1つの用語群データセットは、それぞれ何らかの意味に対応づけられる複数の用語群からなり、用語群に含まれる各用語には、その用語を表示するときの色情報が設定されている。色情報としては、文字色及び文字の背景色を設定することができ、さらにその用語がスペクトル表示された時のスペクトルバーの色の選択(文字色または文字背景色のいずれか)及び用語スペクトルバー列の背景色の選択(黒または白のいずれか)も可能である。なお、各用語には、色情報のほかに、フォント、サイズ、文字飾りなどの文字属性などが関連付けられてもよい。
【0043】
図3には、用語群データセットの一例として、Fタームのテーマ3B011(職業用、工業用又はスポーツ用保護衣)の各分類に対応づけられた複数の用語群が例示されている。用語スペクトル表示手段12は、ユーザから用語群データセットを特定する情報としてテーマ記号「3B011」を受信すると、用語群データベース50よりテーマ記号「3B011」に対応する用語群データセットを取得し、この用語群データセットに含まれる複数の分類に対応づけられた用語群ごとの用語群ボックス210を、マルチスペクトル画面200内に表示する。例えば、分類AA00に対応づけられた用語群ボックス210では、用語リスト211において、「衣、服・・・前掛け」の用語のグループが赤色の背景色で表示され、「手、首・・・すね」の用語のグループ(図示せず)が灰色の背景色で表示される。なお、用語群に含まれる用語の同義語を、自動的に同じ背景色の用語グループに含めるようにしてもよい。また、用語群に含まれる用語のうち、文書内に存在しない用語は、用語群リスト211において非表示としてもよい。
【0044】
次に、用語スペクトル表示手段12は、各用語群ボックス210内に用語スペクトルバー列212を表示する。1つの用語群ボックス210内に複数の用語スペクトルバー列212を表示でき、1つの用語スペクトルバー列212は、用語リスト211中の同じ背景色の用語グループに対応している。用語スペクトルバー列212の長手方向の長さは、文書全体の長さに対応しており、用語スペクトルバー列212中の1つのスペクトルバーは、対応する用語の文書内位置を指示している。
【0045】
用語スペクトルバー列212の背景及びスペクトルバーの色は、色情報の設定に基づいて色付けされる。図3の例では、スペクトルバーの色として文字背景色が選択され、用語スペクトルバー列の背景色として黒が選択されているため、分類AA00に対応づけられた用語群ボックス210において、赤色の文字背景色を有する「衣、服・・・前掛け」に対応して、1列目の用語スペクトルが黒の背景色と赤色のスペクトルバーで表示され、灰色の文字背景色を有する「手、首・・・すね」に対応して、2列目の用語スペクトルが黒の背景色と灰色のスペクトルバーで表示されている。ある背景色の用語のグループが文書内に存在しない場合には、用語スペクトルバー列を黒色あるいは非表示としてもよい。
【0046】
このように、用語群に対応させて用語リスト211と用語スペクトルバー列212を一体化して関連付け、用語リスト211に含まれる用語が文書内でヒットすると、対応する用語スペクトルバー列212を色付けして表示するように構成したことから、マルチスペクトル画面を俯瞰しながら、複数の用語群と文書との関連性を容易に把握することができる。
【0047】
例えば、ユーザは、マルチスペクトル画面200にマトリックス配置された用語群ボックス210内の用語スペクトルバー列212を俯瞰し、図3のAA00のようにスペクトルバーが多く表示されている分類は、文書の内容との関連性が高いと判定することができる。また、AA10、AA14、AA15も関連性があることが分かる。一方、AA11~AA13、AB02~AB03のように、スペクトルバーが表示されていない分類については、文書の内容との関連性は低いと判定することができる。
【0048】
ユーザは、用語スペクトル表示手段12が表示したマルチスペクトル画面200を俯瞰したとき、用語群ボックス210中の特定の用語や用語スペクトルが、文書内でどのように記載されているのかを表示させたい場合がある。そこで、文書処理装置10は、マルチスペクトル画面200に対する所定のユーザ操作を検出すると、文書内の対応する用語を簡便に表示する機能を提供する。
【0049】
例えば、文書表示手段11は、ユーザがマウス操作により、マルチスペクトル画面200中の1つの用語群ボックス210をクリックしたことを検出すると、クリックされた用語群ボックス210を強調表示する。図3では、一例として、クリックされた名称「AA00」の用語群ボックス210を破線枠で強調表示している。そして、「用語パネル」欄(B)中の検索キ-ワードを選択された用語群ボックス210に対応する用語リスト211に置き換えて、検索キーワードに対応する文書内の用語を強調表示する。このときに、「用語パネル」欄(B)が置き換わることで、「スペクトルバー」欄(E)には、選択された用語群ボックス210の名称「AA00」とスペクトルバー列212が表示されるため、ユーザは、「スペクトルバー」欄(E)を見ながら明細書テキストをスクロールすることができる。また、ユーザが、用語群ボックス210の中のスペクトルバーの1つをクリックした場合には、上の動作に加え、「スペクトルバー」欄(E)のスペクトルバーをクリックした場合と同様に、「明細書テキスト」欄(D)の表示内容を対応する位置までジャンプさせる。さらに、ユーザは、複数の用語群ボックス210を同時に選択することもできる。例えば、分類AA12と分類AA13が、上位概念と下位概念の関係にあるときに、両方の用語群ボックスを同時に選択し、対応する用語を強調表示することができる。
【0050】
なお、ユーザがマウス操作により特定の用語群ボックス210をクリックしたことを検出することに代えて、特定の用語群ボックス210をドラッグして「用語パネル」欄(B)の上でドロップしたことを検出するようにしてもよい。また、用語群内に表示された用語リスト211内の特定の用語の選択、または特定の用語スペクトルバー列212の選択を検出し、対応する文書内の用語を強調表示するようにしてもよい。
【0051】
以上のように、ユーザは、マルチスペクトル画面200を表示させた後、マルチスペクトル画面200に対して所定の操作を行うことにより、文書の該当するテキストを表示させることができる。このため、何らかの意味に対応づけられた複数の用語群と文書との対比において、文書の具体的な記載内容を分析したいような場合でも、簡単な操作により、文書の該当箇所を表示させることができる。
【0052】
なお、用語スペクトルバー列212は、用語群ボックス210内に収まるように表示されるが、用語群ボックス210あるいは用語スペクトルバー列212の視認性を高めるため、用語スペクトルバー列212を表示するモードと非表示にするモードを設けてもよい。このモードは、ユーザが任意に設定することもできる。また、文書内における用語の出現頻度に応じて自動的に設定してもよい。例えば、ある用語スペクトルバー列に対応する用語の出現頻度が所定の第1閾値以上の場合、あるいは、所定の第2閾値以下の場合には、その用語スペクトルバー列は文書の内容と関連する用語スペクトルバー列ではないと判定し、非表示モードに設定してもよい。
【0053】
用語スペクトルバー列212の色付けのために、用語に設定された色情報を利用する例を説明したが、他の色付け方法を採用することもできる。一例として、文書内でヒットした用語の数を用語スペクトルバー列の色の濃淡に反映させてもよい。例えば、赤色の背景色を有する「衣、・・・前掛け」のグループについて用語スペクトルバー列を表示する場合、ヒットする用語数が少ない場合には薄い赤色、多い場合には濃い赤色のように、用語数に基づいて色の濃さを変化させることができる。
【0054】
図3では、文書表示画面100上にマルチスペクトル画面200を重畳表示したものとして説明したが、このような表示態様に限ることなく、例えば、マルチスペクトル画面200を別ウインドウとして表示してもよい。また、ユーザの指示に応じて用語群ボックス210を縮小表示したり、マルチスペクトル画面200を縦方向あるいは横方向にスクロール表示するためのスクロールバーを表示したりしてもよい。
【0055】
用語群ボックス210の表示については、用語群ボックス210ごとに表示/非表示モードの設定を可能にし、上で述べたような用語の出現頻度に基づく判定によって、意味を有しないような用語群ボックス210を非表示にしてもよい。
【0056】
また、用語群ボックス210に階層構造を持たせ、通常時には上位の階層の用語群ボックス210のみを表示させ、上位の階層の用語群ボックス210への操作(例えば、マウスによるダブルクリック)により、その下位の階層の用語群ボックス210を表示させるようにしてもよい。例えば、上位階層の分類AA00に対応づけられた用語群ボックスと、その下の階層の分類AA01~AA10に対応づけられた各用語群ボックスがある場合に、通常時は上位階層の分類AA00に対応づけられた用語群ボックスのみを、下位階層の用語及び用語スペクトルバー列も統合した形で表示させ、当該用語群ボックスへの操作によって、下位階層の用語群ボックスを展開して表示させるようにしてもよい。
【0057】
各用語群ボックス210には、用語群の名称とともに用語群に対応づけられた意味の説明をあわせて表示するようにしてもよい。例えば、用語群がFタームの分類に対応づけられている場合には、Fタームの表形式で用語群ボックスを配列させ、各用語群ボックスにおいて、分類の記号とともに分類の定義の説明を表示するようにしてもよい。また、各用語群ボックス210においては、用語リスト211を非表示としてもよい。
【0058】
図3では、ユーザが1つの用語群データセット(3B011)を特定し、この1つの用語群データセットに対応するマルチスペクトル画面200を表示する例を示したが、ユーザが複数の用語群データセットを特定し、複数の用語群データセットに対応するマルチスペクトル画面を表示するようにしてもよい。この場合、複数の用語群データセットに対応するマルチスペクトル画面200を並べて表示するようにしてもよいし、タブなどで切り替えて表示するようにしてもよい。
【0059】
図4は、第1実施形態の文書処理装置10のマルチ用語パネル300の一例を示す図である。マルチ用語パネル300は、用語群データセットに含まれる用語群ごとに、用語リストや色情報を配列したものである。
【0060】
用語群表示手段13は、ユーザによる「ファイル入力」コマンドに応答して、用語群データベース50から指定された用語群データセットを取得する。そして、用語群データセットから、用語群の名称、スペクトル背景色、スペクトルマーク、用語、用語の色情報を抽出してマルチ用語パネル300を生成し、表示装置30に表示する。
【0061】
図4には、一例として、パネル1からパネル8までのパネルが表示されている。各パネルは、パネル番号、用語群の名称、スペクトル背景色、スペクトルマーク、用語を含んでいる。また、マルチ用語パネル300に隣接して、色番号、文字色、文字背景色の組合せを表示した「用語と色パネル」欄が表示されている。また、マルチ用語パネル300上部には、「エクスポート」、「ファイル出力」、「ファイル入力」、「色一括設定」、「色全クリア」のコマンドボタンが設けられている。
【0062】
図4のマルチ用語パネル300は、一例として、Fタームのテーマ3B011の分類に対応づけられた用語群を表示している。「スペクトル背景色」欄には、用語スペクトルバー列の背景色の設定が表示され、パネル1では黒色が選択されている。「スペクトルマーク」欄には、用語スペクトル中のスペクトルバーの色が指定されており、パネル1では、スペクトルバーが用語の文字背景色により表示されることが設定されている。
【0063】
「用語」欄には、用語群の用語と、その用語の文字色及び文字背景色の組み合わせを示す色番号が設定されている。例えば、パネル1には、「衣、服・・・前掛け」が白の文字色及び赤の文字背景色、「手、首・・・すね」が黒の文字色及び灰色の文字背景色で表示されるように設定されている。
【0064】
マルチ用語パネル300の用語群や各種色の設定は、ユーザが自由に編集可能である。マルチ用語パネル300を新規に作成する場合は、全ての項目をユーザがマニュアルにより入力してもよいが、「用語」欄に設定する用語群については、用語群作成手段14により、機械的に抽出されたものをユーザが編集して作成することができる。例えば、図4のように、各用語群がFタームの分類に対応づけられる場合、用語群作成手段14は、用語群の新規作成指示に対応し、指示されたFタームのテーマ記号に対応する既存のFターム表をメモリから取得し、各分類の定義説明の文言から用語を抽出して、その同義語や類義語とともにユーザに提示するようにしてもよい。ここで、既存のすべてのFターム表及び同義語・類義語の辞書は、事前に文書処理装置10内に格納されているとする。
【0065】
用語群作成手段14による用語群の抽出手法としては、その用語群でヒットする文献(正例文献)の集合とヒットしない文献(負例文献)の集合に基づき、用語群の種となる用語を機械的に抽出するようにしてもよい。
【0066】
図5は、Fタームのあるテーマに対応づけられた特許文献集合から、分類ごとに正例文献集合と負例文献集合を作成するステップの一例を説明する図である。
【0067】
正例文献集合と負例文献集合は、Fタームの分類ごとに作成される。例えば、AA01の分類について正例文献集合と負例文献集合を作成する場合、対象となっているテーマに対応づけられた全特許文献について付与されている分類記号を分析し、AA01が付与されている文献を正例文献の集合に含め、AA01が付与されていない文献を負例文献の集合に含める。
【0068】
図6は、種用語の抽出ステップの一例を概略的に示している。
【0069】
正例文献集合と負例文献集合から、正例文献での出現率が負例文献での出現率よりも顕著に高い用語を生成する。例えば、AA01が付与された正例文献集合に含まれる各用語について、正例文献集合内での出現率、すなわち、その用語が出現する正例文献数を全正例文献数で割った値を算出する。同様に、AA01が付与されていない負例文献集合に含まれる各用語について、負例文献集合内での出現率、すなわち、その用語が出現する負例文献数を全負例文献数で割った値を算出する。
【0070】
そして、正例文献での出現率が、負例文献での出現率よりも顕著に高い用語を、用語群AA01の種用語として抽出する。抽出の基準となる出現率の閾値については、抽出する種用語の精度あるいは抽出すべき種用語数などに応じて設定することができる。また、種用語を抽出する際に、種用語の同義語や類義語をあわせて抽出するようにしてもよい。この場合、同義語・類義語の辞書は、事前に文書処理装置10内に格納されているとする。抽出された種用語は、そのまま用語群の用語として利用することもできるが、抽出された種用語を表示画面に表示し、ユーザからの入力に基づいて最終的に利用する用語を選択するようにしてもよい。なお、種用語の出現率の算出にあたり、どのような文献にも出現する一般的な用語あるいは出現数が統計的に意味をもたないほど少ない用語については、除外してもよい。
【0071】
このように、用語群作成手段14を設けたことにより、既に分類が付与された複数の正例文献及び負例文献に基づいて、各分類の意味に対応づけられた用語群を抽出することができることから、各分類を特徴づける用語群を客観的かつ網羅的に設定することができる。
【0072】
用語群表示手段13により新規作成あるいは編集されたマルチ用語パネル300の内容は、「ファイル出力」の指示があった場合、用語群データセットに変換されて用語群データベース50に新規保存あるいは上書き保存される。また、「エクスポート」の指示があった場合、用語群データセットが用語スペクトル表示手段12にエクスポートされ、マルチスペクトル画面200に表示される。
【0073】
以上のように、マルチ用語パネル300を使用することにより、ユーザは用語群の内容を随時編集、改良したり、あるいは、マルチ用語パネル300を新規作成したりできるため、用語群の内容を充実させることができる。
【0074】
<動作>
次に、上述の第1実施形態の文書処理装置10の動作の一例について説明する。
図7は、第1実施形態の文書処理装置10の動作の一例を説明するためのフローチャートである。文書処理装置10が起動されると、図7のステップS1、S8、S10のメインルーチンを実行する。ステップS2,S3、S5~S7は文書表示手段11の機能に対応しており、ステップS4は用語スペクトル表示手段12の機能、ステップS9は用語群表示手段13の機能に対応している。本フローチャートにおいて略述されたステップは例示的であり、あるステップを除外、追加、又は修正する組み合わせを含む、ステップの任意の組み合わせで実施可能である。図7では、各ステップを逐次処理した場合を例示しているが、マルチプログラミング処理など並列プログラミングの手法を採用してもよい。
【0075】
文書表示手段11は、文書表示画面100の表示指示を検出すると(ステップS1)、文書を文書表示画面100上に表示する(ステップS2)。文書表示画面100を新たに生成する場合には、ユーザから文書を特定する情報(例えば、特許文献の公開番号など)を取得し、文書データベース40より該当する文書を取得する。そして、取得した文書から段落構成、明細書テキスト、符号一覧、図を抽出して文書表示画面100上に表示する。文書表示手段11は、必要に応じて、文書表示画面100にスクロールバーを表示する。一方、文書表示画面100が既に生成されているが非アクティブになっている場合には、文書表示画面100をアクティブにする。
【0076】
検索キーワードが予め設定されている場合、または新たに入力された場合には、文書表示手段11は、検索キーワードを「用語パネル」欄(B)に表示する。そして、文書内に該当検索キーワードに対応する用語が存在する場合には、その用語の文字色あるいは背景色を変えることにより強調表示を行う。
【0077】
文書表示手段11は、「スペクトルバー」欄(E)に、検索キーワードに対応する用語が文書内のどの位置に出現しているかを示すスペクトルバーを当該検索キーワードの背景色と同じ色により表示する。
【0078】
図7において、ユーザによるマルチスペクトル画面200の表示指示を検出すると(ステップS3)、用語スペクトル表示手段12は、ユーザから用語群データセットを特定する情報(例えば、Fタームのテーマ記号)を取得し、用語群データベース50から該当する用語群データセット(例えば、Fタームの複数の分類に対応づけられた用語群)を取得する。そして、マルチスペクトル画面200上に複数の用語群ボックス210を配置し、各用語群ボックス210内に、用語群のそれぞれに関連付けられた用語リスト211と用語スペクトルバー列212を予め設定された色情報に基づいて表示する(ステップS4)。
【0079】
用語スペクトル表示手段12は、用語群ボックス210中に用語スペクトルバー列を表示するために、用語リスト211から一つの用語を選択し、当該用語が文書内に出現する位置を算出する。例えば、文書の最初の行から当該用語が出現する行までの行数を計算し、文書全体の行数で割ることにより、文書内の相対的な出現位置を算出し、その出現位置を一つのスペクトルバーとして用語スペクトルバー列中に表示する。このとき、スペクトルバーは、当該用語に設定された色情報に基づいて色付けされる。同様に、文書内で当該用語が出現するすべての位置を算出し、これら用語に対応した複数のスペクトルバーを含む用語スペクトルバー列212を用語に設定された色により表示する。
【0080】
用語群に含まれる他の用語についても、同様に、それぞれの用語に対応する用語スペクトルバー列212を生成する。なお、スペクトルバーの表示を行った場合、スペクトルバーごとに、対応する用語とその用語の文書内位置を関連付けてメモリに記憶しておく。
【0081】
図7において、文書表示画面100あるいはマルチスペクトル画面200へのユーザ操作を検出すると(ステップS5)、文書表示手段11は、文書表示画面100あるいはマルチスペクトル画面200に対するユーザ操作に応答して、文書の表示内容を制御する(ステップS6)。例えば、ある用語群ボックス210が選択されたことを検出した場合、選択された用語群ボックス210を強調表示するとともに、その用語群ボックス210内の用語リスト211を「用語パネル」欄(B)に表示し、「明細書テキスト」欄(D)の文書の強調表示と、「スペクトルバー」欄(E)のスペクトル表示を行う。
【0082】
文書の表示内容の制御が終了すると、文書表示手段11は、文書表示画面100が選択中あるいは作業中であるか否か、すなわち、アクティブか否かを判定する(ステップS7)。文書表示画面100がアクティブの場合には、ステップS3~S6を繰り返し、文書表示画面100が閉じられたり、縮小されたりして非アクティブになった場合にはメインフローに戻る。
【0083】
図7において、マルチ用語パネル300の表示指示が検出されると(ステップS8)、用語群表示手段13は、マルチ用語パネル300を表示する。マルチ用語パネル300を新たに生成する場合には、ユーザから表示対象となる用語群データセットを特定する情報及び新規/編集コマンドの入力を待機する。これらの情報が入力されると、用語群表示手段13は、マルチ用語パネル300を表示する。一方、マルチ用語パネル300が既に生成されているが非アクティブの場合には、アクティブにして表示する。そして、用語群の新規作成処理あるいは編集処理を実行する(ステップS9)。用語群表示手段13は、ユーザによる「エクスポート」コマンドを検出した場合、マルチ用語パネル300の内容を用語群データセットに変換し、文書表示手段11に対して「エクスポート」コマンドが指示された旨の通知とともに変換された用語群データセットをデータ引き渡し用メモリ(図示せず)に出力する。用語群表示手段13による処理が終了するか、あるいは、マルチ用語パネル300が非アクティブになると、処理フローはメインフローに戻る。
【0084】
図7において、文書処理装置10を終了するコマンドが入力されたかを検出し(ステップS10)、終了コマンドが入力されない場合には、ステップS1に戻る。一方、文書処理装置10の終了コマンドが入力されると、表示されている画面を閉じて、文書処理装置10の一連の処理を終了する。
【0085】
以上、第1実施形態によれば、用語群データセットを構成する何らかの意味に対応づけられた複数の用語群と文書との関連性を容易に把握できるような文書処理装置を提供することができる。なお、第1実施形態では、複数の用語群としてFタームの分類に対応づけられた用語群を例にとって説明したが、Fタームの分類以外の何らかの意味に対応づけられた複数の用語群についても、本発明を適用することができる。例えば、分類に関する統計基準として用いられる日本標準産業分類、日本標準職業分類、疾病、傷害及び死因分類のほか、日本標準商品分類などは、いずれも大分類、中分類、小分類及びこれらの分類を説明する項目を有しており、何らかの意味に対応づけられた複数の用語群を有する文書ということができる。
【0086】
<第2実施形態>
第2実施形態における分類付与支援システムについて説明する。第2実施形態は、第1実施形態の文書処理装置を備え、用語群データセットを構成する複数の用語群を複数の分類に対応づけられたものとし、複数の分類の中から相応しい分類を選択して分類付与対象の文献に付与するための支援を行う分類付与支援システムに関する。ここで、分類の付与は、分類付与対象の文献の内容が、分類の定義に合致する場合に、当該文献に分類記号を付すことによって行われる。例えば、Fタームにおける「AA00」、「AA01」などが、付与される分類記号である。
【0087】
第2実施形態では、図1に示すように、文書表示手段11によって表示される文書に分類を付与するための分類付与手段15をさらに備えている。ユーザは、用語スペクトル表示手段12により表示される各用語群ボックス210を参照し、特にスペクトルバーが多く表示されていて文書の内容との関連性が高いと判定される用語群ボックス210を選択して、その用語群ボックス210内の用語リスト211を「用語パネル」欄(B)に表示し、「明細書テキスト」欄(D)の文書の強調表示と、「スペクトルバー」欄(E)のスペクトル表示を行う。そして、ユーザは、強調表示された箇所を中心に文書の内容を確認し、選択した用語群ボックス210に対応づけられた分類の定義がその文献の内容に合致すると判断される場合には、分類付与手段15により分類を付与する。なお、分類付与手段15による分類の付与方法は、ユーザが分類記号入力欄に分類記号をマニュアル入力するようにしてもよいし、分類記号のリストの中から該当する分類記号をユーザが選択するようにしてもよい。また、用語スペクトル表示手段12により表示される各用語群ボックス210への操作(例えば、マウスによる右クリック)により、それに対応づけられた分類を選択して付与できるようにしてもよい。分類付与手段15は、ユーザにより付与された分類記号を取得すると、表示中文書と関連付けて、例えば、文書データベース40に格納する。
【0088】
ところで、Fタームの分類を特許文献に付与するような分類付与業務においては、複数のユーザ(分類付与者)が、用語群データベース50に格納された用語群を参照したり、編集(登録、変更、削除等)したりすることが多い。このような環境において、分類付与支援システムは、用語群データベース50に格納された用語群を複数のユーザで共有し、用語の編集を可能とする構成を備えてもよい。
【0089】
一例として、文書処理装置10に、複数ユーザによる用語群データベース50へのアクセス要求の内容に応じて用語群へのアクセスを制御する手段(図示せず)を設けることにより、用語群の共有化を実現することができる。例えば、複数のユーザによる用語群データベース50中の所定の用語群に対するアクセス要求を検出した場合、用語群の参照要求であるとか、用語群の編集要求であっても編集対象の用語群が異なるなど、アクセス要求に競合が生じない場合には、複数ユーザによる用語群へのアクセス要求を許可する。一方、同一用語群に対する編集要求など、アクセス要求に競合が生じた場合には、先着順、アクセス権のレベルあるいは編集の優先度などに基づいて、1人のユーザからのアクセス要求を許可する。なお、競合が生じた場合、該当するユーザに対して編集内容が競合している旨の通知を行い、ユーザからの指示を待つように構成してもよい。
【0090】
このように、分類の付与を行う複数のユーザ間で用語群データベース50に格納された用語群を共有化する構成を採用することにより、用語群の内容を充実させることができる。
【0091】
第2実施形態の分類付与支援システムによれば、文書処理装置10で扱う複数の用語群を複数の分類に対応づけられたものとすることで、文書全体の内容把握と分類付与根拠箇所の発見を迅速に行うことが可能となり、当該文書処理装置10を用いて高品質な分類付与を支援する分類付与支援システムを提供することができる。
【0092】
<第3実施形態>
第3実施形態における文書処理装置10または分類付与支援システムについて説明する。第1実施形態の例では、用語群作成手段14が、既に分類が付与された複数の正例文献及び負例文献に基づいて、各分類の意味に対応する種用語を抽出して用語群を作成したが、第3実施形態では、用語群作成手段14が、抽出された用語の類似関係を自動的に分析することにより各分類に対応づけられた文意式を生成することで、分類ごとの用語群を作成する。
【0093】
ここで、文意式とは、単独の用語又は共起関係を示す複数の用語の組み合わせ(タプル)をブール代数式で記述したものである。たとえば、「位置」、「GPS」、「測定」という3つの用語が句、文章、段落内において同時に出現するケースが多い場合、すなわち、「位置」、「GPS」、「測定」が共起関係を有する場合、文意式は以下のように設定される。
・句内で共起関係を有する場合の文意式(句タプル):<位置,GPS,測定>
・文章内で共起関係を有する場合の文意式(文タプル):{位置,GPS,測定}
・段落内で共起関係を有する場合の文意式(段落タプル):[位置,GPS,測定]
【0094】
このような文意式を構成する用語を用語群として用いて文書と対比する場合、句、文章あるいは段落の各範囲内にこれらの用語の組み合わせが出現した場合に限って検索がヒットするように構成することにより、単独の用語により検索した場合に比べて分類付与精度が格段に向上する。
【0095】
なお、文意式としては、上に挙げた句タプル、文タプル及び段落タプルの他に、近傍式(複数の用語と、用語間の最大文字数及び用語の順序によって記述される式)を用いることも考えられる。
【0096】
次に、第3実施形態の文書処理装置10または分類付与支援システムの用語群作成手順について説明する。この用語群作成手順は、用語群作成手段14により実行され、正例文献集合と負例文献集合から種用語を抽出するステップと、その後さらに共起用語を抽出し、文意式を生成するステップとからなる。このうち、正例文献集合と負例文献集合から種用語を抽出するステップについては、第1実施形態において図5及び図6を用いて説明したとおりである。
【0097】
図8は、共起用語及び文意式(2語タプル)の生成ステップの一例を示す図である。共起用語とは、種用語と同じ句、文章あるいは段落中に出現する頻度が高い用語である。
【0098】
分類AA01の段落タプルを生成する場合、AA01の正例文献の用語群から、種用語群とその他の用語群を抽出する。まず、種用語群から一つの種用語を選択し、種用語1とする。その他の用語群のうち、種用語1と同じ段落に出現する用語を共起用語として抽出する。種用語1と同じ段落に出現する共起用語により、[種用語1、共起用語1]、[種用語1、共起用語2]・・・[種用語1、共起用語n]といった2語タプルを作成する。次いで、種用語2、種用語3などの種用語群に含まれる種用語について、同様に、共起用語を組み合わせた2語タプルを作成する。
【0099】
次に、2語タプル群に含まれる2語タプルの有効性を評価し、最終的に、AA01の意味内容を代表するような精度の高い2語タプルを選抜する。2語タプルの精度評価には、正例文献群と負例文献群を利用する。正例文献集合中で種用語1と共起用語i(i=1~n)の2語タプルが出現する段落数あるいは出現頻度と、負例文献集合中で種用語1と共起用語i(i=1~n)の2語タプルが出現する段落数あるいは出現頻度を比較する。
【0100】
出現する段落数を比較する場合、例えば、ある2語タプルが正例文献のみで出現し、負例文献には出現しないような場合には、精度は100%となる。また、2語タプルの出現頻度は、例えば、種用語1と共起用語i(i=1~n)の2語タプルが出現する段落数をAA01の正例文献に含まれるすべての段落数で割った値により算出してもよい。なお、2語タプルの評価にあたり、ユーザによる指示入力を受け付けて評価結果を追加、訂正できるようにしてもよい。
【0101】
このように選抜した2語タプルに、さらに同じ段落に出現する共起用語を追加し、3語段落タプルを作成することもできる。3語段落タプルを使用することにより、2語タプルよりも精度の優れた分類付与が可能となる。同様に、4語段落タプル、5語段落タプルなどを作成してもよい。
【0102】
用語群作成手段14は、分類ごとに、種用語と共起用語の組み合わせを生成し、このように作成された2語タプル、3語タプルなどを構成する用語を、用語群データベース50に格納される用語群の用語として登録することができる。なお、種用語または共起用語の生成工程において、生成した用語の同義語をあわせて生成し、用語群の用語として登録するようにしてもよい。また、このように生成された用語群を、用語群表示手段13によりマルチ用語パネル300に表示して、ユーザが編集するようにしてもよい。
【0103】
このように、文意式を用語群として用い、文書表示手段11により文書を表示する場合に、句、文章あるいは段落の各範囲内にこれらの文意式の用語の組み合わせが出現した場合に限って用語の強調表示を行うように構成することにより、文書と用語群との関連性をより精度よく把握することができる。なお、第3実施形態では、用語群として分類に対応づけられた文意式を例にとって説明したが、分類以外の何らかの意味に対応づけられた文意式についても、本発明を適用することができる。
【0104】
<第4実施形態>
第4実施形態における文書処理装置10について説明する。第1実施形態における文書処理装置10は、各用語群に対応する用語群ボックス210を複数備えたマルチスペクトル画面200を表示するものであったが、第4実施形態における文書処理装置10では、用語スペクトル表示手段12は、マルチスペクトル画面200を表示する機能に代えて、若しくは加えて、1つの文書に対応する文書ボックス410を複数備えた文書マルチスペクトル画面400を表示する機能を有する。
【0105】
図9は、第4実施形態の文書処理装置10により表示された文書マルチスペクトル画面400の一例を示す図である。
【0106】
文書マルチスペクトル画面400内には、「文献番号一覧」欄(A)に表示される文献No.1~No.Xのそれぞれに対応し、文書ボックス410が左上から順に複数配置されており、各文書ボックス410内には、文献番号とともに用語スペクトルバー列411が表示される。この用語スペクトルバー列411は、「用語パネル」欄(B)で設定される用語及び色情報に基づいて、対応する文献内の用語の位置を指示するスペクトルバーを一覧表示するものである。なお、文書ボックス410ごとに表示/非表示モードの設定を可能にし、例えば文献内の用語の出現頻度に基づく判定によって、設定された用語との関連性の低い文献の文書ボックス410を非表示にしてもよい。
【0107】
ユーザは、文書マルチスペクトル画面400を俯瞰したとき、文書ボックス410中の特定の文献の内容をテキスト表示させたい場合がある。そこで、文書処理装置10は、文書マルチスペクトル画面400に対する所定のユーザ操作を検出すると、対応する文献を簡便に表示する機能を提供する。
【0108】
例えば、文書表示手段11は、ユーザがマウス操作により、文書マルチスペクトル画面400中の1つの文書ボックス410をクリックしたことを検出すると、クリックされた文書ボックス410が強調表示される。図9では、一例として、文献番号15に対応する文書ボックス410を破線枠で強調表示している。そして、「明細書テキスト」欄(D)中の明細書テキストを選択された文書ボックス410に対応する文献に置き換えて、検索キーワードに対応する文献内の用語を強調表示する。このときに、「明細書テキスト」欄(D)が置き換わることで、「スペクトルバー」欄(E)の表示も変更されるため、ユーザは、スペクトルバーを見ながら明細書テキストをスクロールすることができる。また、ユーザが、文書ボックス410の中のスペクトルバーの1つをクリックした場合には、上の動作に加え、「スペクトルバー」欄(E)のスペクトルバーをクリックした場合と同様に、「明細書テキスト」欄(D)の表示内容を対応する位置までジャンプさせる。
【0109】
なお、図9では、「用語パネル」欄(B)で設定される用語群に基づいてスペクトル表示を行う例を示したが、スペクトル表示を行うための用語群を予め複数用意しておき、用意した用語群を選択的に切り替えてスペクトル表示を行うようにしてもよい。例えば、第1実施形態で示したように、Fタームなどの分類に対応づけられた複数の用語群を予め用意しておき、これらのうちの1つを選択することで「用語パネル」欄(B)に用語群を設定し、スペクトル表示を行うようにしてもよい。この場合、文書マルチスペクトル画面400と、用語群のマルチスペクトル画面200を切り替えて表示できるようにし、用語群の選択の際には、用語群のマルチスペクトル画面200を表示させるようにすればよい。また、マルチスペクトル画面の2次元配列の縦軸方向に複数の文献を、横軸方向に複数の用語群をそれぞれ並べ、複数の文献ごと、及び複数の用語群ごとのスペクトル表示を同時に行えるようにしてもよい。
【0110】
以上のように、複数の文書のそれぞれに対応させて用語スペクトルバー列411をそれぞれ表示し、「用語パネル」欄(B)で設定される用語がいずれかの文書内でヒットすると、対応する用語スペクトルバー列411を色付けして表示するように構成したことから、文書マルチスペクトル画面400を俯瞰しながら、設定された用語との関連性が深い文献を容易に探すことができる。また、文書マルチスペクトル画面400に対して所定の操作を行うことにより、該当する文献のテキストを表示させることができるため、複数の文献の用語スペクトルバー列411を俯瞰した後、特定の文献の具体的な記載内容を分析したいような場合でも、簡単な操作により、該当する文献を表示させることができる。
【0111】
なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。
【符号の説明】
【0112】
10…文書処理装置、11…文書表示手段、12…用語スペクトル表示手段、13…用語群表示手段、14…用語群作成手段、15…分類付与手段、20…入力装置、30…表示装置、40…文書データベース、50…用語群データベース、100…文書表示画面、200…マルチスペクトル画面、210…用語群ボックス、211…用語リスト、212…用語スペクトルバー列、300…マルチ用語パネル、400…文書マルチスペクトル画面、410…文書ボックス、411…用語スペクトルバー列。
図1
図2
図3
図4
図5
図6
図7
図8
図9