(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6782858
(24)【登録日】2020年10月22日
(45)【発行日】2020年11月11日
(54)【発明の名称】文献分類装置
(51)【国際特許分類】
G06F 16/35 20190101AFI20201102BHJP
G06Q 50/18 20120101ALI20201102BHJP
【FI】
G06F16/35
G06Q50/18 310
【請求項の数】11
【全頁数】27
(21)【出願番号】特願2019-556006(P2019-556006)
(86)(22)【出願日】2017年11月22日
(86)【国際出願番号】JP2017041920
(87)【国際公開番号】WO2019102533
(87)【国際公開日】20190531
【審査請求日】2019年12月20日
【早期審査対象出願】
(73)【特許権者】
【識別番号】000000918
【氏名又は名称】花王株式会社
(74)【代理人】
【識別番号】100137589
【弁理士】
【氏名又は名称】右田 俊介
(72)【発明者】
【氏名】山口 真主
(72)【発明者】
【氏名】安藤 俊幸
(72)【発明者】
【氏名】長原 進介
【審査官】
鹿野 博嗣
(56)【参考文献】
【文献】
国際公開第2012/162405(WO,A1)
【文献】
特開2009−230323(JP,A)
【文献】
特開2013−225207(JP,A)
【文献】
特開2015−207173(JP,A)
【文献】
特開2008−084151(JP,A)
【文献】
特開2013−131170(JP,A)
【文献】
特開2008−090612(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/35
G06Q 50/18
(57)【特許請求の範囲】
【請求項1】
各文献について多観点分類に基づく分類コードが予めそれぞれ付与された被分類文献集合の情報を取得する文献集合取得手段と、
前記被分類文献集合に付与されている前記分類コードの全種又は一部の種を各要素とする多次元の特徴量ベクトルを該被分類文献集合の各文献についてそれぞれ生成するベクトル生成手段と、
前記各文献の特徴量ベクトルを用いて、前記被分類文献集合に対して複数回のクラスタ分析を行う分類手段と、
前記複数回のクラスタ分析の結果を示す文献分類情報を生成する生成手段と、
を備え、
前記複数回のクラスタ分析には、K−Means法を用いたクラスタ分析及びAgglomerative法を用いたクラスタ分析が含まれる、
文献分類装置。
【請求項2】
前記生成手段は、前記複数回のクラスタ分析の中の、K−Means法を用いたクラスタ分析の結果であるクラスタごとの文献数分布と、Agglomerative法を用いたクラスタ分析の結果であるクラスタごとの文献数分布とのマトリクス情報を含む前記文献分類情報を生成する、
請求項1に記載の文献分類装置。
【請求項3】
前記生成手段は、前記複数回のクラスタ分析の中の、K−Means法を用いたクラスタ分析で分けられた各クラスタを識別する第一のクラスタ識別データ及びAgglomerative法を用いたクラスタ分析で分けられた各クラスタを識別する第二のクラスタ識別データが少なくとも、前記被分類文献集合の少なくとも一部の各文献の文献識別データとそれぞれ関連付けられた前記文献分類情報を生成する、
請求項1又は2に記載の文献分類装置。
【請求項4】
前記被分類文献集合の各文献に対して所定文字列の検索を行う文字列検索手段、
を更に備え、
前記ベクトル生成手段は、前記所定文字列の検索結果に対応する要素を更に含む前記特徴量ベクトルを生成する、
請求項1から3のいずれか一項に記載の文献分類装置。
【請求項5】
前記被分類文献集合の各文献には、前記分類コードに加えて、文献内容の主題を総括的に分類する他の分類に基づく他分類コードがそれぞれ付与されており、
前記ベクトル生成手段は、前記被分類文献集合に付与されている前記他分類コードの全種又は一部の種を要素として更に含む前記特徴量ベクトルを生成する、
請求項1から4のいずれか一項に記載の文献分類装置。
【請求項6】
前記ベクトル生成手段は、
前記被分類文献集合に付与されている分類コードの一部の種を各要素とする第一の特徴量ベクトルを該被分類文献集合の各文献についてそれぞれ生成し、
更に、残りの分類コードの少なくとも一部の種を各要素とする第二の特徴量ベクトルを前記被分類文献集合又は前記被分類文献集合の一部の各文献についてそれぞれ生成し、
前記分類手段は、
前記複数回のクラスタ分析の中の或る回のクラスタ分析では、前記第一の特徴量ベクトルを用い、
他の回のクラスタ分析では、前記第二の特徴量ベクトルを用いる、
請求項1から5のいずれか一項に記載の文献分類装置。
【請求項7】
前記分類コードは、階層構造を有し、階層ごとの部分コードにより形成されており、
前記ベクトル生成手段は、前記被分類文献集合に付与されている分類コードの一部の種における分類コードの中の最上位階層から所定階層までの部分コードに対応する要素を含む前記特徴量ベクトルを生成する、
請求項1から6のいずれか一項に記載の文献分類装置。
【請求項8】
各文献について前記分類コードがそれぞれ付与された文献情報を格納する文献データベースから前記被分類文献集合の文献情報を抽出する検索手段、
を更に備え、
前記文献集合取得手段は、前記検索手段により抽出された前記被分類文献集合の文献情報を取得する、
請求項1から7のいずれか一項に記載の文献分類装置。
【請求項9】
各文献について多観点分類に基づく分類コードが予めそれぞれ付与された被分類文献集合の情報を取得する文献集合取得工程と、
前記被分類文献集合に付与されている前記分類コードの全種又は一部の種を各要素とする多次元の特徴量ベクトルを該被分類文献集合の各文献についてそれぞれ生成するベクトル生成工程と、
前記各文献の特徴量ベクトルを用いて、前記被分類文献集合に対して複数回のクラスタ分析を行う分類工程と、
を含み、
前記複数回のクラスタ分析には、K−Means法を用いたクラスタ分析及びAgglomerative法を用いたクラスタ分析が含まれる、
文献分類方法。
【請求項10】
前記複数回のクラスタ分析の中の、K−Means法を用いたクラスタ分析の結果であるクラスタごとの文献数分布と、Agglomerative法を用いたクラスタ分析の結果であるクラスタごとの文献数分布とのマトリクス情報を含む文献分類情報を生成する生成工程、
を更に含む請求項9に記載の文献分類装置。
【請求項11】
請求項9又は10に記載の文献分類方法を少なくとも一つのコンピュータに実行させるコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文献を分類する技術に関する。
【背景技術】
【0002】
特許公報、登録実用新案公報、公開特許公報、公表特許公報といった特許又は実用新案に係る文献(以降、特許文献と総称する)には、国際特許分類(IPC)、FI記号、Fタームといった分類コードが付されている。その他、特許庁で運用されているコンピュータソフトウェアデータベース(CSDB)に蓄積されている各種文献にもCSタームと呼ばれる分類コードが付されているし、社内技報等といった各社で独自の分類コードを付して管理する文献もある。
【0003】
このような文献に付された分類コードを利用して文献を検索する各種手法が存在している。
下記特許文献1には研究者や開発者が特許文献等の産業財産権に関する文献の検索を容易に行えるように支援する手法が開示されている。この手法では、ユーザにより入力された公報番号を検索キーとした検索の結果からテーマコードとFタームとを抽出して提示することでFタームを用いた検索が容易化されている。
下記特許文献2には、分類コードを活用して統計処理することで、短時間で簡便に多くの特許文献の属する技術領域を分析することを可能とする手法が開示されている。この手法は、各々の特許文献に付与された複数の分類コードを抽出し、抽出された分類コードの集合から数値分析用分類コードを選抜し、数値分析により数値分析用分類コードの座標を算出し、数値分析用分類コードの座標に基づいて、各々の特許文献の座標を算出し、特許文献の座標に基づきその密度を表現した所定のマップを作成する。
下記非特許文献1には、各特許文献に対するFタームの付与されやすさを数値化したFターム概念ベクトル或いは重み付きFターム概念ベクトルを作成し、特許文献間の類似度を算出することで、特許検索精度を向上させる手法が開示されている。この手法では、特許文献を学習データとし文献中に出現する形態素uni−gramを素性に用いて学習したFタームごとのSVM分類器を用い、そのSVM分類器からの出力値を用いてFターム概念ベクトルが生成される。
先行技術文献
特許文献1 特開2014−2563号公報
特許文献2 特開2015−207173号公報
非特許文献
非特許文献1 目黒光司(他5名),「Fターム概念ベクトルを用いた特許検索システムの改良」,言語処理学会 第21回年次大会 発表論文集,768頁−771頁,2015年3月
【発明の概要】
【0004】
本発明は、各文献について多観点分類に基づく分類コードが予めそれぞれ付与された被分類文献集合の情報を取得する文献集合取得手段と、前記被分類文献集合に付与されている前記分類コードの全種又は一部の種を各要素とする多次元の特徴量ベクトルを該被分類文献集合の各文献についてそれぞれ生成するベクトル生成手段と、前記各文献の特徴量ベクトルを用いて、前記被分類文献集合に対して複数回のクラスタ分析を行う分類手段と、前記複数回のクラスタ分析の結果を示す文献分類情報を生成する生成手段と、を備え、前記複数回のクラスタ分析
には、
K−Means法を用いたクラスタ分析及びAgglomerative法を用いたクラスタ分析が含まれる。
【図面の簡単な説明】
【0005】
【
図1】各実施形態に係る文献分類装置のハードウェア構成例を概念的に示す図である。
【
図2】第一実施形態に係る文献分類装置の制御構成例を概念的に示すブロック図である。
【
図3】特徴量ベクトルの第一の生成イメージを示す概念図である。
【
図4】特徴量ベクトルの第二の生成イメージを示す概念図である。
【
図5】特徴量ベクトルの第三の生成イメージを示す概念図である。
【
図6】第一実施形態に係るおける文献分類装置の動作例を示すフローチャートである。
【
図7】第二実施形態に係る文献分類装置の制御構成例を概念的に示すブロック図である。
【
図9】第二実施形態に係るおける文献分類装置の動作例を示すフローチャートである。
【
図10】変形例に係る文献分類装置の制御構成例を概念的に示すブロック図である。
【
図11】
図11(a)は5出願人の各々におけるクラスタ毎の文献数を示す表であり、
図11(b)は出願人Aの特定文献1件と他の文献との類似度の統計情報をクラスタごとにまとめた表である。
【
図12】同一の被分類文献集合をK−Means法クラスタリング及びAgglomerative法クラスタリングの各々で分類した結果を示す表である。
【
図13】1042次元の特徴量ベクトル及び355次元の特徴量ベクトルを用いて同一の被分類文献集合を同一のクラスタ分析で分類した結果を示す表である。
【
図14】1042次元の特徴量ベクトル及び文字列検索の結果を要素に加えた1043次元の特徴量ベクトルを用いて同一の被分類文献集合を同一のクラスタ分析で分類した結果を示す表である。
【
図15】1042次元の特徴量ベクトル及び筆頭IPCを要素に加えた1074次元の特徴量ベクトルを用いて同一の被分類文献集合を同一のクラスタ分析で分類した結果を示す表である。
【
図16】345次元の特徴量ベクトル及び126次元の特徴量ベクトルを用いて同一の被分類文献集合をクラスタ数の異なる同一のクラスタ分析手法で分類した結果を示す表である。
【
図17】LDA法による潜在トピック分析を用いた文献分類の結果を示す表である。
【
図18】
図18(a)は121次元のCSターム特徴量ベクトルを用いたK−Means法クラスタリングにより6クラスタに分類した結果を示す表であり、
図18(b)は
図18(a)と同一のCSターム特徴量ベクトルを用いた同一のクラスタリングにより3クラスタに分類した結果を示す表である。
【0006】
上述の特許文献1及び非特許文献1の手法は、特定の文献又は内容と同一又は近似する内容が記載された文献を容易に或いは或る程度の精度で探し出すことができるかもしれない。しかしながら、そのような手法を用いたとしても、所望の文献をピンポイントで見つけ出すことは困難であり、そのためには、ほとんどの場合、或る程度の数の文献を読み込む必要が生じる。
一方で、或る程度広範な検索により数百件程度の文献集合を抽出し、この文献集合について概要や傾向といった全体像を分析し把握したい場合がある。また、特定の検索で抽出された文献集合には明らかに不必要な文献が含まれる場合がほとんどであり、そのような検索上のノイズを除外するために、すべての文献を読む必要が生じる。
本発明は、文献集合の全体像把握を容易化する文献分類装置、文献分類方法、このような文献分類方法を少なくとも一つのコンピュータに実行させるコンピュータプログラム、及び、このようなコンピュータプログラムを記録したコンピュータが読み取り可能な記憶媒体に関するものである。この記憶媒体は、非一時的な有形の媒体を含む。全体像把握を容易化することで、読み込むべき文献や注目すべき文献を絞ること、読み込む優先順位を付すこと等も可能となる。
【0007】
以下、本発明の好ましい実施形態の例(以降、本実施形態と表記する)について説明する。なお、以下に挙げる各実施形態はそれぞれ例示であり、本発明は以下の各実施形態の構成に限定されない。
【0008】
まず、後述の各実施形態に係る文献分類装置の概要について説明する。
図1は、各実施形態に係る文献分類装置10(以降、本装置10と表記する場合もある)のハードウェア構成例を概念的に示す図である。
本装置10は、いわゆるコンピュータ(情報処理装置)であり、例えば、バスで相互に接続される、CPU(Central Processing Unit)11、メモリ12、入出力インタフェース(I/F)13、通信ユニット14等を有する。本装置10を形成する各ハードウェア要素の数はそれぞれ制限されず、これらハードウェア要素は情報処理回路と総称することもできる。また、本装置10は、図示されないハードウェア要素を含んでもよく、そのハードウェア構成は制限されない。
【0009】
CPU11は、一般的なCPU以外に、特定用途向け集積回路(ASIC)、DSP(Digital Signal Processor)、GPU(Graphics Processing Unit)等で構成してもよい。
メモリ12は、RAM(Random Access Memory)、ROM(Read Only Memory)、補助記憶装置(ハードディスク等)である。メモリ12には文献分類プログラム(コンピュータプログラム)18が格納されている。文献分類プログラム18は、例えば、CD(Compact Disc)、メモリカード等のような可搬型記録媒体やネットワーク上の他のコンピュータから入出力I/F13又は通信ユニット14を介してインストールされ、メモリ12に格納されてもよい。
入出力I/F13は、出力装置15、入力装置16等のユーザインタフェース装置と接続可能である。出力装置15は、LCD(Liquid Crystal Display)やCRT(Cathode Ray Tube)ディスプレイのような、CPU11等により処理された描画データに対応する画面を表示する装置、印刷装置等の少なくとも一つである。入力装置16は、キーボード、マウス等のようなユーザ操作の入力を受け付ける装置である。出力装置15及び入力装置16は一体化され、タッチパネルとして実現されてもよい。
通信ユニット14は、他のコンピュータとの通信網を介した通信や、他の機器との信号のやりとり等を行う。通信ユニット14には、可搬型記録媒体等も接続され得る。
【0010】
本装置10のユーザインタフェースは、本装置10の入出力I/F13に接続される出力装置15及び入力装置16で実現されてもよいし、本装置10の通信ユニット14を介して接続される外部コンピュータの出力装置15及び入力装置16で実現されてもよい。前者の場合、本装置10で生成される後述の文献分類情報は、本装置10の入出力I/F13に接続される出力装置15から出力される。また、後者の場合には、本装置10は、サーバ装置として動作し、本装置10で生成される文献分類情報は、クライアント装置として動作する外部コンピュータの出力装置15から出力される。
【0011】
後述の各実施形態に係る文献分類装置10は、少なくとも、文献集合取得手段と、ベクトル生成手段と、分類手段と、生成手段とを備える。言い換えれば、各文献分類装置10は、文献集合取得工程と、ベクトル生成工程と、分類工程と、生成工程とを含む文献分類方法を実行可能である。これら各手段又は各工程は、メモリ12に格納される文献分類プログラム18がCPU11で実行されることにより実現される。
【0012】
文献集合取得手段(文献集合取得工程)は、各文献について多観点分類に基づく分類コードが予めそれぞれ付与された被分類文献集合の情報を取得する。
文献集合取得手段は、被分類文献集合の情報を外部のコンピュータ、機器、可搬型記録媒体等から入出力I/F13又は通信ユニット14を介して取得してもよいし、後述の第一実施形態のように文献分類装置10内の検索部21から取得してもよい。文献集合取得手段の一具体例が後述の取得部22である。
【0013】
ここで「多観点分類に基づく分類コード」とは、文献を様々な観点(多観点)で分類する分類体系を識別するコードデータである。このため、多観点分類に基づく分類コードが付与される文献のほとんどにはこの分類コードが複数種、付与される。
この分類コードには、例えば、Fターム、CSコード等がある。他の例として、文献を多観点で評価して分類する評価コードであってもよい。具体的には、文章構成「A」、明瞭性「B」、正確性(誤記等の少なさ)「C」等の多観点の各評価項目コードと、最高「5」から最低「1」までの評価点コードとから形成される評価コード(「A5」、「B3」、「C2」等)であってもよい。但し、多観点分類に基づく分類コードはこのような例に限定されない。
「被分類文献集合」とは、分類対象とされる文献の集合である。被分類文献集合の各文献は、1種以上の多観点分類に基づく分類コードが予め付与された文献であればよく、その内容は特に限定されない。
【0014】
ベクトル生成手段(ベクトル生成工程)は、当該被分類文献集合に付与されている分類コードの全種又は一部の種を各要素とする多次元の特徴量ベクトルを当該被分類文献集合の各文献についてそれぞれ生成する。ベクトル生成手段の一具体例が後述のベクトル生成部23である。
生成される特徴量ベクトルの次元数の上限は、計算負荷やデータ容量等で許容される範囲であれば、特に制限されない。その次元数の下限は、分類数(クラスタ数)よりも大きければよい。
また、特徴量ベクトルの要素として用いる分類コードは、被分類文献集合の各文献に付与されている全種であってもよいし、一部の種であってもよく、望まれる分類仕様に従って適宜決められればよい。例えば、被分類文献集合がCSDBから抽出された文献集合である場合、その文献集合の各文献に付与されている全種(CC00からCC09、DD00からDD15、JJ00からJJ78等)が特徴ベクトルの要素として用いられてもよいし、一部の種(JJ00からJJ78のみ)が特徴ベクトルの要素として用いられてもよい。
また「分類コードの全種又は一部の種を各要素とする」とは、分類コード自体を特徴ベクトルの要素値とするという意味ではなく、その要素に対応する分類コードがその文献に付与されているか否かを示す値(1/0)、又は、それに重み付けされた値を要素値とすることを意味する。
【0015】
分類手段(分類工程)は、ベクトル生成手段により生成された各文献の特徴量ベクトルを用いて、被分類文献集合を分類する。分類手段の一具体例が後述のクラスタリング部24及び潜在トピック分析部27である。
分類手段による具体的な分類手法は、多観点分類に基づく分類コードを各要素とする多次元の特徴量ベクトルを用いて、被分類文献集合を複数の部分文献集合に分類可能であれば、特に制限されない。後述の各実施形態では、クラスタ分析及び潜在トピック分析を用いた分類手法が例示されている。
【0016】
生成手段(生成工程)は、分類手段による分類の結果を示す文献分類情報を生成する。生成手段の一具体例が後述の生成部25である。
生成手段により生成される文献分類情報は、被分類文献集合の分類結果を示す情報であれば、その具体的内容は制限されない。例えば、文献分類情報は、分類手段による分類で分けられた各部分集合を識別する分類識別データ(クラスタ番号等)と、被分類文献集合の少なくとも一部の各文献の文献識別データと、が関連付けられた情報であってもよい。
生成手段により生成された文献分類情報は、出力装置15への表示、印刷等により出力されてもよいし、入出力I/F13又は通信ユニット14を介して電子ファイルとして外部に送信されてもよい。
【0017】
このように、後述の各実施形態では、被分類文献集合の各文献について多観点分類に基づく分類コードを各要素とする多次元の特徴量ベクトルが生成され、この特徴量ベクトルを用いて被分類文献集合が分類される。各文献における多観点分類に基づく分類コードの付与パターンは、その文献の内容に対応しているため、分類コードを各要素とする特徴量ベクトルは、その文献の内容的特徴を表すといえる。このため、この特徴量ベクトルを用いて分類された文献の集合は、内容的特徴が似通った文献の集まりと考えられる。
従って、各実施形態で生成される文献分類情報を用いることで、被分類文献集合の全体像の把握が容易となる。例えば、部分集合ごとに属する文献を数件程度読むことにより、部分集合ごとの内容傾向が把握可能となり、結果、被分類文献集合の全体像を把握できる。また、部分集合ごとの内容傾向が把握できれば、特定の文献又は内容と同一又は近似する内容の文献を特定するのに、読み込む対象とする文献を或る部分集合のみに絞ることもできる。
【0018】
但し、文献分類方法は生成工程を含まなくてもよいし、上述の各工程には人の手が部分的に介在してもよい。例えば、分類工程においてコンピュータにより特定の分析手法が実行され、その実行結果の出力を人が参照し、各文献の分類や文献分類情報の作成は人により実施されてもよい。
【0019】
以下、各実施形態に係る文献分類装置10についてより詳細に説明する。
以下の各実施形態では、説明の便宜のために、特許文献を対象とし、多観点分類に基づく分類コードとしてFタームを用いる例を挙げることとする。但し、各実施形態に係る文献分類装置10で扱うことができる文献は特許文献に制限されないし、多観点分類に基づく分類コードもFタームに制限されない。以降、特許文献は文献と略称される。
本明細書において「Fターム」とは、説明の便宜のために、「テーマコード」を含めた形式を指すこととする。このため、「Fターム」は、例えば、「テーマコード(英数字)5桁」+「観点(英字)2桁」+「数字2桁」、又は、前記「数字2桁」の末尾に記載される1文字の英数字(付加コードと呼ばれる)まで含めた表記形式で示される。但し、「Fターム」が「テーマコード」を含まない形式を指す場合にも、実施可能であることは言うまでもない。
【0020】
[第一実施形態]
〔文献分類装置〕
第一実施形態に係る文献分類装置10のハードウェア構成は、
図1に例示されるとおりである。本装置10は、上述したとおり、サーバ装置として動作してもよいし、スタンドアローン装置として動作してもよい。
【0021】
図2は、第一実施形態に係る文献分類装置10の制御構成例を概念的に示すブロック図である。
本装置10は、検索部21、取得部22、ベクトル生成部23、クラスタリング部24、生成部25を有する。これらは、ソフトウェア要素(モジュール)であり、例えば、メモリ12に格納される文献分類プログラム18がCPU11により実行されることにより実現される。
【0022】
検索部21は、各文献についてFタームがそれぞれ付与された文献情報を格納する文献データベースから被分類文献集合の文献情報を抽出する。
文献データベースは、本装置10のメモリ12に格納されていてもよいし、外部のコンピュータのメモリに格納されていてもよい。後者の場合、検索部21は、通信ユニット14を介して当該外部のコンピュータと通信を行うことで、文献データベースにアクセスすればよい。
検索部21は、検索条件の入力画面を出力装置15に表示させ、その入力画面に対して入力装置16を用いたユーザ操作により入力された検索条件の情報(検索式等)を取得し、この情報を用いて検索を実行することができる。
【0023】
取得部22は、検索部21により抽出された、被分類文献集合の文献情報を取得する。このとき、取得部22は、その文献情報を外部へ出力可能な電子ファイルとして取得してもよいし、メモリ12に格納される生データとして取得してもよい。ここでの「文献情報を取得する」とは、文献情報を読み込むと言い換えることができる。
取得される文献情報は、被分類文献集合の各文献についての文献識別データ及びFタームデータを含んでいればよく、その具体的な内容は制限されない。例えば、被分類文献集合が特許文献ならば、出願番号、出願公開番号、特許登録番号、出願人/権利者、IPC、FI、Fターム、要約、特許請求の範囲等の情報が取得可能である。
【0024】
ベクトル生成部23は、上述したように、被分類文献集合の各文献に関して特徴量ベクトルをそれぞれ生成する。
このとき、ベクトル生成部23は、取得部22で取得された文献情報に含まれるFタームの全種を特定し、特定された各Fタームを各要素とする特徴量ベクトルを生成してもよい。また、ベクトル生成部23は、取得部22で取得された文献情報に含まれるFタームの全種の中の一部を特定し、その特定された各Fタームを各要素とする特徴量ベクトルを生成してもよい。この場合、ベクトル生成部23は、当該文献情報に含まれるFターム全種を出力装置15に表示させ、その中から特徴量ベクトルの要素として用いるFタームをユーザに選択させてもよい。この場合、ベクトル生成部23は、ユーザにより選択されたFターム種を各要素とする特徴量ベクトルを生成すればよい。
【0025】
図3は、特徴量ベクトルの第一の生成イメージを示す概念図である。
図3の上部には、特徴量ベクトルの要素として用いるFターム群が示されている。ベクトル生成部23は、上述のように特徴量ベクトルの要素として用いるFターム種の数を特徴量ベクトルの要素数とし、
図3に例示されるように、各文献の特徴量ベクトルを生成する。例えば、ベクトル生成部23は、取得部22で取得された文献情報に基づいて、被分類文献集合に含まれる文献ごとに、特徴量ベクトルの各要素に対応するFタームが付与されているか否かをそれぞれ判定し、付与されているFタームに対応する要素の値を「1」とし、付与されていないFタームに対応する要素の値を「0」とする。
【0026】
但し、要素の値は必ずしも「1」又は「0」とされなくてもよく、重み付けが行われてもよい。例えば、ベクトル生成部23は、被分類文献集合の全ての文献に付されているFタームに対応する要素については重み付けを小さくし、被分類文献集合の全てではないが多くの文献に付されているFタームに対応する要素については重み付けを大きくしてもよい。また、注目するFタームに対応する要素については重み付けを大きくすることもできる。
更に言えば、ベクトル生成部23は、
図3に示されるような重み付け前の特徴量ベクトルのリストをユーザが編集できるように電子ファイルに格納してもよい。また、ベクトル生成部23は、入力装置16を用いたユーザ操作により特徴量ベクトルを編集できるように、重み付け前の特徴量ベクトルを出力装置15に表示させることもできる。
【0027】
Fタームは、上述したように、先頭から5桁の英数字で示されるテーマコード、英字2桁で示される観点、数字2桁で示される或る観点における分類内容等から構成されている。即ち、Fタームは、階層構造を有し、階層ごとの部分コードにより形成されているといえる。具体的には、最上位階層の部分コードがテーマコードであり、第二位階層の部分コードが観点コード(英字2桁)であり、第三位階層の部分コードが観点内分類コード(数字2桁)である。付加コードは最下位層の部分コードとしてもよい。
そこで、Fタームの中の最上位階層から所定階層までの部分コードを特徴量ベクトルの一要素に対応付けることもできる。即ち、ベクトル生成部23は、被分類文献集合に付与されている分類コードの一部の種における分類コードの中の最上位階層から所定階層までの部分コードに対応する要素を含む特徴量ベクトルを生成してもよい。
【0028】
図4は、特徴量ベクトルの第二の生成イメージを示す概念図である。
図4の例では、Fタームの最上位階層のテーマコード「4C117」が特徴量ベクトルの一要素に対応付けられている。これにより、テーマコード「4C117」を持つFターム「4C117XB01」、「4C117XB13」、「4C117XD05」、及び「4C117XE36」のいずれか一つでも付与されている文献の特徴量ベクトルでは、テーマコード「4C117」に対応する要素の値が「1」に設定されることになる。
これにより、細かい分類の詳細な情報が必要とならないFタームはまとめて1要素とすることができるため、目的に沿った分類が可能となる。また、複数種のFタームをまとめて特徴量ベクトルの1要素に表すことができるため、特徴量ベクトルの要素数を削減することができ、計算負荷を軽減させることができる。
【0029】
また、ベクトル生成部23は、被分類文献集合の各文献について2以上の特徴量ベクトルをそれぞれ生成してもよい。即ち、ベクトル生成部23は、被分類文献集合に付与されている分類コードの一部の種を各要素とする第一の特徴量ベクトルを被分類文献集合の各文献についてそれぞれ生成し、更に、残りの分類コードの少なくとも一部の種を各要素とする第二の特徴量ベクトルを被分類文献集合又は被分類文献集合の一部の各文献についてそれぞれ生成してもよい。
各文献について2以上の特徴量ベクトルが生成される場合、直交性を有するFターム群が一つの特徴量ベクトルの要素として用いられることが好ましい。ここでのFターム間の直交性とは、Fターム相互に無相関である或いは関連性が低い関係を意味する。Fタームのような分類コードは、多観点分類に基づいているため、観点間には或る程度の相関性を示すものあれば、関連性が低いものも有り得る。Fタームの例では、テーマコード及び観点(7桁)より下位が異なるFタームどうしは直交性を有するということもできる。このような直交性を有するFターム群で一つの特徴量ベクトルを生成することで、文献の特徴を高精度に表す特徴量ベクトルを生成することができる。
【0030】
図5は、特徴量ベクトルの第三の生成イメージを示す概念図である。
図5の例では、第一の特徴量ベクトルは、被分類文献集合に付与されているFタームの全種のうち「4C083AA」、「4C083AB」、「4C083AC」、及び「4C083AD」を含むFタームを各要素とし、第二の特徴量ベクトルは、当該Fタームの全種のうち「4C083CC」及び「4C083DD」を含むFタームを各要素として生成される。これにより、被分類文献集合の各文献について第一及び第二の特徴量ベクトルがそれぞれ生成される。
【0031】
クラスタリング部24は、ベクトル生成部23により生成された特徴量ベクトルを用いて、被分類文献集合に対してクラスタ分析を行い、被分類文献集合を複数のクラスタに分類する。クラスタ分析には、最短距離法(単リンク法)、最長距離法(完全リンク法)、最小分散法(Ward法)、メジアン法、K−Means法等、様々な手法が存在する。ここでのクラスタ分析の具体的手法は制限されない。
例えば、K−Means法が用いられる場合、クラスタリング部24は、Elbow法等を用いてクラスタ数を算出することもできる。また、クラスタリング部24は、クラスタ数の入力画面を出力装置15に表示させ、その入力画面に対して入力されたクラスタ数を用いてもよい。
【0032】
また、クラスタリング部24は、当該特徴量ベクトルを用いて、被分類文献集合に対して複数回のクラスタ分析を行ってもよい。この場合、クラスタリング部24は、各回で異なるクラスタ数を用いたクラスタ分析をそれぞれ行ってもよいし、各回で異なるクラスタ分析手法(例えば、K−Means法とWard法等)を用いて複数回のクラスタ分析(アンサンブルクラスタリング)を行ってもよい。
【0033】
各文献について二以上の特徴量ベクトルが生成されている場合、クラスタリング部24は、各特徴量ベクトルを用いて複数のクラスタ分析を行うことができる。このとき、クラスタリング部24は、各特徴量ベクトルを用いて被分類文献集合に対してクラスタ分析をそれぞれ行ってもよいし、一つの特徴量ベクトルを用いて被分類文献集合に対してクラスタ分析を行い、分類された一以上の各クラスタに対して他の特徴量ベクトルを用いて更にクラスタ分析を行ってもよい。即ち、各文献について第一及び第二の特徴量ベクトルがそれぞれ生成されている場合、クラスタリング部24は、第一の特徴量ベクトルを用いて被分類文献集合に対して第一の分類を行い、更に、第二の特徴量ベクトルを用いて、被分類文献集合又は第一の分類の結果により得られる少なくとも一つの部分文献集合に対して第二の分類を行ってもよい。
【0034】
生成部25は、クラスタリング部24によるクラスタ分析の結果を示す文献分類情報を生成する。例えば、生成部25は、クラスタ分析で分けられた各クラスタの識別データと、各クラスタに属する各文献の文献識別データとが関連付けられた文献分類情報を生成することができる。このとき、生成部25は、取得部22により取得された被分類文献集合の文献情報に各クラスタの識別データを加えることで当該文献分類情報を生成してもよい。
【0035】
複数回のクラスタ分析が行われている場合、生成部25は、文献の文献識別データに対してクラスタ分析ごとの複数のクラスタ識別データが関連付けられた文献分類情報を生成する。即ち、生成部25は、第一の分類で分けられた各部分集合を識別する第一の分類識別データ及び第二の分類で分けられた各部分集合を識別する第二の分類識別データと、被分類文献集合の少なくとも一部の各文献の文献識別データとが関連付けられた文献分類情報を生成する。
このようにすれば、複数のクラスタリングの対象となった文献については、多面的な分類の結果が示され、結果として、多面的な観点で被分類文献集合の全体像の把握が可能となる。
【0036】
生成部25は、生成した文献分類情報を出力装置15から表示、印刷等で出力することができる。また、生成部25は、可搬型記録媒体等に格納したり、外部のコンピュータに通信で送るために、文献分類情報をファイル化しサーバに格納することもできる。
【0037】
〔文献分類方法/動作例〕
以下、第一実施形態に係る文献分類方法について説明する。
図6は、第一実施形態に係るおける文献分類装置10の動作例を示すフローチャートである。第一実施形態に係る文献分類方法は、本装置10のような少なくとも一つのコンピュータにより実行される。
図6に示される各工程は、本装置10が有する上述の各構成の処理内容と同様であるため、各工程の詳細は、適宜省略される。
【0038】
本実施形態に係る文献分類方法は、工程(S11)、工程(S13)、工程(S15)、及び工程(S17)を含む。
本装置10は、各文献についてFタームがそれぞれ付与された文献情報を格納する文献データベースから被分類文献集合の文献情報を抽出する(S11)。このとき、本装置10は、ユーザにより入力された検索条件の情報を取得してもよい。また、上述したとおり、文献データベースが外部のコンピュータ(サーバ装置)上に存在する場合には、本装置10は、そのコンピュータに検索条件を指定して文献情報の抽出を要求してもよい。
【0039】
本装置10は、工程(S11)で抽出された文献情報で示される被分類文献集合の各文献についてFタームの特徴量ベクトルをそれぞれ生成する(S13)。このとき、特徴量ベクトルの要素として用いられるFタームは、被分類文献集合に付与されるFタームの全種であってもよいし、その一部の種であってもよい。本装置10は、特徴量ベクトルの要素として用いるFタームをユーザに選択させることもできる。
特徴量ベクトルの生成手法については上述したとおりである。
【0040】
続いて、本装置10は、工程(S13)で生成されたFタームの特徴量ベクトルを用いて、被分類文献集合に対してクラスタ分析を適用し、被分類文献集合を複数のクラスタに分類する(S15)。各文献について二以上の特徴量ベクトルが生成されている場合、本装置10は、各特徴量ベクトルを用いて複数のクラスタ分析を行うことができる。
クラスタ分析の手法については上述したとおりである。
【0041】
本装置10は、工程(S15)におけるクラスタ分析の結果に基づいて、被分類文献集合の文献分類情報を生成する(S17)。文献分類情報についても上述したとおりである。
このような文献分類方法は、本装置10のみにより実行されてもよいし、複数の装置(コンピュータ)により実行されてもよい。例えば、工程(S11)は、外部のコンピュータにより実行され、その他の各工程(S13)から工程(S17)が本装置10により実行されてもよい。
また、上述の各工程には、人の手が部分的に介在してもよい。例えば、工程(S11)で検索条件を指定したり、検索の実行を指示するのは、ユーザ操作であってもよい。また、工程(S13)においても、特徴量ベクトルの要素への重み付けや、特徴量ベクトルの要素として用いるFタームの選択は、ユーザにより行われてもよい。
【0042】
[第二実施形態]
上述の第一実施形態では、被分類文献集合の分類にクラスタ分析が用いられた。以下に説明する第二実施形態では、潜在トピック分析と呼ばれる他の分類手法が用いられる。以下、第二実施形態に係る文献分類装置及び文献分類方法について、第一実施形態と異なる内容を中心説明する。以下の説明では、第一実施形態と同様の内容については適宜省略する。
【0043】
〔文献分類装置〕
第二実施形態に係る文献分類装置10(以降、本装置10と表記する場合もある)のハードウェア構成についても、
図1に例示されるとおりである。本装置10は、上述したとおり、サーバ装置として動作してもよいし、スタンドアローン装置として動作してもよい。
【0044】
図7は、第二実施形態に係る文献分類装置10の制御構成例を概念的に示すブロック図である。
本装置10は、第一実施形態におけるクラスタリング部24の代わりに、潜在トピック分析部27を有している。潜在トピック分析部27もソフトウェア要素(モジュール)であり、例えば、メモリ12に格納される文献分類プログラム18がCPU11により実行されることにより実現される。
【0045】
潜在トピック分析部27は、ベクトル生成部23により生成された特徴量ベクトルに対して潜在トピック分析を適用し、この分析結果に基づいて被分類文献集合を分類する。
潜在トピック分析は、潜在的ディリクレ配分法(LDA(Latent Dirichlet Allocation))を代表とするトピックモデルに基づく分析手法である。トピックモデルとは、文書のテキストデータ群からトピックを探し出す手法の総称である。
本発明者らは、文献はトピックの集合体であり、文献に付与される多観点分類に基づく分類コードがその文献のトピックを形成すると考えた。そして、文書解析に主に用いられる潜在トピック分析を、多観点分類に基づく分類コードが付与された文献集合の分類に利用することで、文献集合を内容に応じて的確に分類できることを見出したのである。
【0046】
図8は、潜在トピック分析の概念図である。
図8に示されるように、ここで用いられる潜在トピックは、多観点分類に基づく分類コード(Fターム等)の出現確率の分布で表され、潜在トピック分析により被分類文献集合の各文献について潜在トピックの配合比率が算出される。
即ち、潜在トピック分析部27は、Fタームの付与状況を示す各文献の特徴量ベクトルを入力として潜在トピック分析を実行することで、Fタームの出現確率の分布で表される潜在トピックリストと、被分類文献集合の各文献についての潜在トピックの配合比率とが出力される。言い換えれば、潜在トピック分析部27は、被分類文献集合の各文献の特徴量ベクトルに対して、分類コードの出現確率の分布で表される潜在トピックを用いた潜在トピック分析を適用することにより、被分類文献集合の各文献について潜在トピックの配合比率を算出する。
【0047】
潜在トピック分析部27は、潜在トピック分析で算出された潜在トピックの配合比率に基づいて、被分類文献集合を分類することができる。例えば、潜在トピック分析部27は、潜在トピックの配合比率中、最も高い比率を示す潜在トピックをその文献の代表トピックとして選択し、潜在トピックごとにその潜在トピックを代表トピックとする文献の集合で、被分類文献集合を分類することができる。
また、潜在トピックの閾値で分類することもでき、一つの文献に関して閾値よりも高い比率の潜在トピックが複数存在する場合には、その文献については複数の潜在トピックを代表トピックに決定することもできる。この場合には、その文献は複数の分類に属することとされる。また、何れにも属さない文献も分類し得る。
【0048】
潜在トピック分析のトピック数は、予め指定されていてもよいし、ユーザにより入力されてもよい。後者の場合、潜在トピック分析部27は、トピック数の入力画面を出力装置15に表示させ、その入力画面に対して入力されたトピック数を取得することができる。
また、潜在トピック分析部27は、特定のトピック数による潜在トピック分析を行い、その結果として得られる各文献の潜在トピックの配合比率に基づいてトピック数を自動変更し、その変更されたトピック数により再度、潜在トピック分析を行うようにしてもよい。
潜在トピック分析部27は、トピック数を変えながら、潜在トピック分析を複数回実行してもよい。この場合、潜在トピック分析の結果ごとに各文献が分類されればよい。
【0049】
本実施形態では、生成部25は、代表トピックとされた潜在トピックの識別データと、文献の識別データとが関連付けられた形で文献分類情報を生成することができる。複数の代表トピックを持つ文献については、複数の潜在トピックの識別データが関連付けられればよい。同様に、複数回の潜在トピック分析が行われた場合にも、各文献の識別データに複数の潜在トピックの識別データが関連付けられればよい。
【0050】
〔文献分類方法/動作例〕
以下、第二実施形態に係る文献分類方法について説明する。
図9は、第二実施形態に係るおける文献分類装置10の動作例を示すフローチャートである。第二実施形態に係る文献分類方法は、本装置10のような少なくとも一つのコンピュータにより実行される。
図9に示される各工程は、本装置10が有する上述の各構成の処理内容と同様であるため、各工程の詳細は、適宜省略される。
【0051】
本実施形態に係る文献分類方法は、工程(S21)、工程(S23)、工程(S25)、工程(S27)、及び工程(S29)を含む。工程(S21)及び工程(S23)は、
図6に示される工程(S11)及び工程(S13)と同様である。
第二実施形態では、本装置10は、工程(S23)で生成されたFタームの特徴量ベクトルに対して潜在トピック分析を適用する(S25)。潜在トピック分析手法については上述したとおりである。潜在トピック分析の結果、被分類文献集合の各文献についての潜在トピックの配合比率が算出される。
このとき、本装置10は、潜在トピック分析のトピック数をユーザに指定させてもよいし、自動で決定してもよい。
【0052】
続いて、本装置10は、工程(S25)で算出された文献ごとの潜在トピックの配合比率に基づいて、被分類文献集合を分類する(S27)。工程(S27)での分る手法についても上述した通りである(潜在トピック分析部27)。
工程(S27)の分類結果に基づいて、本装置10は、被分類文献集合の文献分類情報を生成する(S29)。文献分類情報の生成手法についても上述したとおりである(生成部25)。
【0053】
但し、工程(S27)及び工程(S29)では、人の手が介在してもよい。例えば、本装置10は、文献ごとの潜在トピックの配合比率を出力装置15に表示させ、その表示に基づいてユーザが文献の分類を指定してもよい。このとき、ユーザは、文献ごとに各分類の識別データを入力してもよい。また、本装置10が文献ごとの潜在トピックの配合比率を格納する電子ファイルを作成し、この電子ファイルに対してユーザが文献ごとに各分類の識別データを入力してもよい。また、工程(S21)及び工程(S23)について人の手が介在してもよいのは、第一実施形態で述べた通りである。
【0054】
このように第二実施形態では、文献の分類手法として、分類コード(Fターム)の出現確率の分布で表される潜在トピックを用いた潜在トピック分析が用いられ、文献ごとの潜在トピックの配合比率に基づいて被分類文献集合が分類される。潜在トピック分析を用いても第一実施形態と同様の効果を得ることができる。
【0055】
[変形例]
特徴量ベクトルの生成手法は上述のような例に限定されず、多観点分類に基づく分類コード(Fターム等)を用いた手法であれば種々変形可能である。
当該特徴量ベクトルにFターム以外の他の要素が加えられてもよい。
例えば、特許文献には、Fタームに加えて、IPCやFIといった分類コードも付与されている。IPCやFIは、文献の主題を総括的に分類するコード体系であり、単観点分類に基づく分類コードとも呼ばれる。このように、多観点分類に基づく分類コードに加えて、文献内容の主題を総括的に分類する他の分類に基づく他分類コードが被分類文献集合の各文献に付与されている場合には、当該他分類コードが付与されているか否かに対応する要素が特徴量ベクトルに加えられてもよい。
【0056】
この場合、ベクトル生成部23は、被分類文献集合に付与されている多観点分類に基づく分類コードの全種又は一部の種を要素とすると共に、被分類文献集合に付与されている当該他分類コードの全種又は一部の種を要素として更に含む特徴量ベクトルを生成する。上述の各実施形態では、被分類文献集合に付与されているIPC若しくはFI又はそれらの両方の全種又は一部の種を要素として更に含む特徴量ベクトルが生成されてもよい。
【0057】
文献の主題を総括的に分類するような他の分類体系の分類コードに対応する要素を更に特徴量ベクトルに加えることで、文献の特徴を高精度に表す特徴量ベクトルを生成することができ、ひいては、文献の分類精度を向上させることができる。
【0058】
他の例として、各文献が所定のキーワードを含むか否かが特徴量ベクトルの要素に付加されてもよい。また、各文献の所定の記載箇所(特許請求の範囲、要約書、発明が解決しようとする課題の項等)に所定のキーワードが含まれるか否かが要素として付加されてもよい。
図10は、変形例に係る文献分類装置10の制御構成例を概念的に示すブロック図である。
図10に示されるように、上述の各実施形態に係る文献分類装置10は、被分類文献集合の各文献に対して所定文字列の検索を行う文字列検索部29を更に有していてもよい。文字列検索部29もソフトウェア要素(モジュール)であり、例えば、メモリ12に格納される文献分類プログラム18がCPU11により実行されることにより実現される。
図10には、第一実施形態に係る文献分類装置10の変形例が示されているが、第二実施形態に係る文献分類装置10も同様に変形可能であることは言うまでもない。
【0059】
検索に用いる文字列(検索文字列)は、予め決められていてもよいし、ユーザにより指定されてもよい。後者の場合、文字列検索部29は、検索文字列の入力画面を出力装置15に表示させ、この入力画面に対して入力された文字列データを取得してもよい。例えば、ユーザは、文献の分類を行う目的に応じた検索文字列を指定することができる。
文字列検索部29は、取得部22で取得された被分類文献集合の文献情報から各文献の文献識別データを抽出し、その文献識別データのリスト及び当該検索文字列を検索条件として文献データベースを再度検索することにより、被分類文献集合の各文献について検索文字列の有無をそれぞれ判定することができる。
被分類文献集合の各文献の検索元となるデータ(特許請求の範囲や要約書等の記載データ)が取得部22で取得されている場合には、文字列検索部29は、取得部22で取得されているデータに対して検索文字列の検索を行ってもよい。
【0060】
ベクトル生成部23は、検索文字列の検索結果に対応する要素を更に含む特徴量ベクトルを生成する。例えば、ベクトル生成部23は、検索文字列を含むか否かを示す要素値に設定する。
ベクトル生成部23は、多観点分類に基づく分類コード(Fターム等)に加えて、このような検索文字列を含むか否かと、上述の他分類体系の他分類コードが付与されているか否かとの両方を要素とする特徴量ベクトルを生成することができる。
【0061】
このように検索文字列の検索結果に対応する要素を更に特徴量ベクトルに加えることで、分類の目的に合った文献の特徴を高精度に表す特徴量ベクトルを生成することができ、ひいては、ユーザにとって所望の文献分類を行うことが可能となる。
【0062】
また、ベクトル生成部23により生成される文献ごとの特徴量ベクトルを用いることで、文献間の類似度や文献とクラスタとの類似度、クラスタ間の類似度等を求めることもできる。例えば、文献間の類似度として、文献ごとの特徴量ベクトルの余弦類似度(余弦距離)が算出可能である。また、或るクラスタに属する各文献の特徴量ベクトルと或る特定の文献の特徴量ベクトルとの類似度の平均値を算出し、この平均値をそのクラスタと当該特定の文献との類似度とすることが可能である。同様に、或るクラスタに属する各文献の特徴量ベクトルと他のクラスタに属する各文献の特徴量ベクトルとの類似度の平均値を算出して、この平均値をクラスタ間の類似度とすることもできる。
このような文献間の類似度、文献とクラスタとの類似度、又はクラスタ間の類似度が閾値以上となるようにクラスタ分析のクラスタ数や潜在トピック分析のトピック数が自動で決められてもよい。また、文献とクラスタとの類似度を用いることで、或る特定の文献が既に分類されたクラスタのうちどのクラスタに近いか等といった評価を行うこともできる。
【0063】
更に、上述の各実施形態及び各変形例は、内容が相反しない範囲で組み合わせることができる。例えば、上述の第一実施形態及び第二実施形態は組み合わせることができる。この場合には、クラスタ分析を用いた分類(クラスタリング)と潜在トピック分析を用いた分類の両方が行われ、被分類文献集合の各文献にはクラスタ番号と潜在トピック番号とが関連付けられる。
また、上述の各実施形態に係る文献分類装置10は、図示される構成以外の構成を備えてもよいし、図示される構成の一部を備えなくてもよい。例えば、検索部21は、文献分類装置10と通信可能な他のコンピュータ上で実現されていてもよい。この場合、文献分類装置10の取得部22は、他のコンピュータ上から検索部21により抽出された被分類文献集合の文献情報を取得することができる。
【0064】
上述の各実施形態及び各変形例の一部又は全部は、次のようにも特定され得る。但し、上述の各実施形態及び各変形例が以下の記載に制限されるものではない。
【0065】
<1>各文献について多観点分類に基づく分類コードが予めそれぞれ付与された被分類文献集合の情報を取得する文献集合取得手段と、
前記被分類文献集合に付与されている前記分類コードの全種又は一部の種を各要素とする多次元の特徴量ベクトルを該被分類文献集合の各文献についてそれぞれ生成するベクトル生成手段と、
前記各文献の特徴量ベクトルを用いて、前記被分類文献集合を分類する分類手段と、
前記分類の結果を示す文献分類情報を生成する生成手段と、
を備える文献分類装置。
【0066】
<2>前記被分類文献集合の各文献に対して所定文字列の検索を行う文字列検索手段、
を更に備え、
前記ベクトル生成手段は、前記所定文字列の検索結果に対応する要素を更に含む前記特徴量ベクトルを生成する、
<1>に記載の文献分類装置。
<3>前記被分類文献集合の各文献には、前記分類コードに加えて、文献内容の主題を総括的に分類する他の分類に基づく他分類コードがそれぞれ付与されており、
前記ベクトル生成手段は、前記被分類文献集合に付与されている前記他分類コードの全種又は一部の種を要素として更に含む前記特徴量ベクトルを生成する、
<1>又は<2>に記載の文献分類装置。
<4>前記分類手段は、
前記被分類文献集合の各文献の特徴量ベクトルに対して、分類コードの出現確率の分布で表される潜在トピックを用いた潜在トピック分析を適用することにより、前記被分類文献集合の各文献について潜在トピックの配合比率を算出し、
前記算出された潜在トピックの配合比率に基づいて、前記被分類文献集合を分類する、
<1>から<3>のいずれか一つに記載の文献分類装置。
<5>前記ベクトル生成手段は、
前記被分類文献集合に付与されている分類コードの一部の種を各要素とする第一の特徴量ベクトルを該被分類文献集合の各文献についてそれぞれ生成し、
更に、残りの分類コードの少なくとも一部の種を各要素とする第二の特徴量ベクトルを前記被分類文献集合又は前記被分類文献集合の一部の各文献についてそれぞれ生成し、
前記分類手段は、
前記第一の特徴量ベクトルを用いて前記被分類文献集合に対して第一の分類を行い、
更に、前記第二の特徴量ベクトルを用いて、前記被分類文献集合又は該第一の分類の結果により得られる少なくとも一つの部分文献集合に対して第二の分類を行う、
<1>から<4>のいずれか一つに記載の文献分類装置。
<6>前記生成手段は、前記第一の分類で分けられた各部分集合を識別する第一の分類識別データ及び前記第二の分類で分けられた各部分集合を識別する第二の分類識別データと、前記被分類文献集合の少なくとも一部の各文献の文献識別データとが関連付けられた前記文献分類情報を生成する、
<5>に記載の文献分類装置。
<7>前記分類コードは、階層構造を有し、階層ごとの部分コードにより形成されており、
前記ベクトル生成手段は、前記被分類文献集合に付与されている分類コードの一部の種における分類コードの中の最上位階層から所定階層までの部分コードに対応する要素を含む前記特徴量ベクトルを生成する、
<1>から<6>のいずれか一つに記載の文献分類装置。
<8>各文献について前記分類コードがそれぞれ付与された文献情報を格納する文献データベースから前記被分類文献集合の文献情報を抽出する検索手段、
を更に備え、
前記文献集合取得手段は、前記検索手段により抽出された前記被分類文献集合の文献情報を取得する、
<1>から<7>のいずれか一つに記載の文献分類装置。
<9>各文献について多観点分類に基づく分類コードが予めそれぞれ付与された被分類文献集合の情報を取得する文献集合取得工程と、
前記被分類文献集合に付与されている前記分類コードの全種又は一部の種を各要素とする多次元の特徴量ベクトルを該被分類文献集合の各文献についてそれぞれ生成するベクトル生成工程と、
前記各文献の特徴量ベクトルを用いて、前記被分類文献集合を分類する分類工程と、
を含む文献分類方法。
<10>前記被分類文献集合の各文献に対して所定文字列の検索を行う文字列検索工程、
を更に含み、
前記ベクトル生成工程では、前記所定文字列の検索結果に対応する要素を更に含む前記特徴量ベクトルを生成する、
<9>に記載の文献分類方法。
<11>前記被分類文献集合の各文献には、前記分類コードに加えて、文献内容の主題を総括的に分類する他の分類に基づく他分類コードがそれぞれ付与されており、
前記ベクトル生成工程では、前記被分類文献集合に付与されている前記他分類コードの全種又は一部の種を要素として更に含む前記特徴量ベクトルを生成する、
<9>又は<10>に記載の文献分類方法。
<12>前記分類工程は、
前記被分類文献集合の各文献の特徴量ベクトルに対して、分類コードの出現確率の分布で表される潜在トピックを用いた潜在トピック分析を適用することにより、前記被分類文献集合の各文献について潜在トピックの配合比率を算出する工程と、
前記算出された潜在トピックの配合比率に基づいて、前記被分類文献集合を分類する工程と、
を含む<9>から<11>のいずれか一つに記載の文献分類方法。
<13>前記ベクトル生成工程は、
前記被分類文献集合に付与されている分類コードの一部の種を各要素とする第一の特徴量ベクトルを該被分類文献集合の各文献についてそれぞれ生成する工程と、
更に、残りの分類コードの少なくとも一部の種を各要素とする第二の特徴量ベクトルを前記被分類文献集合又は前記被分類文献集合の一部の各文献についてそれぞれ生成する工程と、
を含み、
前記分類工程は、
前記第一の特徴量ベクトルを用いて前記被分類文献集合に対して第一の分類を行う工程と、
前記第二の特徴量ベクトルを用いて、前記被分類文献集合又は該第一の分類の結果により得られる少なくとも一つの部分文献集合に対して第二の分類を行う工程と、
を含む<9>から<12>のいずれか一つに記載の文献分類方法。
<14>前記第一の分類で分けられた各部分集合を識別する第一の分類識別データ及び前記第二の分類で分けられた各部分集合を識別する第二の分類識別データと、前記被分類文献集合の少なくとも一部の各文献の文献識別データとが関連付けられた文献分類情報を生成する工程、
を更に含む<13>に記載の文献分類方法。
<15>前記分類コードは、階層構造を有し、階層ごとの部分コードにより形成されており、
前記ベクトル生成工程では、前記被分類文献集合に付与されている分類コードの一部の種における分類コードの中の最上位階層から所定階層までの部分コードに対応する要素を含む前記特徴量ベクトルを生成する、
<9>から<14>のいずれか一つに記載の文献分類方法。
<16> <9>から<15>のいずれか一つに記載の文献分類方法を少なくとも一つのコンピュータに実行させるコンピュータプログラム。
【0067】
以下に実施例を挙げ、上述の内容を更に詳細に説明する。但し、以下の実施例の記載は、上述の内容に何ら限定を加えるものではない。以下の実施例によれば、種々の特徴量ベクトル及び種々の分析手法を用いた文献分類結果の有用性が検証された。
【実施例1】
【0068】
文献データベースとして、NRIサイバーパテント株式会社により提供されるNRIサイバーパテントデスク2が利用された。この文献データベースにおける公開系特許公報を対象にして、筆頭IPC(最新)に「A61K008」、Fターム(最新)に「4C083cc36」、要約書における文字列「直接染料」がAND条件で指定された検索条件で検索が実行され、289件の特許文献が被分類文献集合として抽出された。この被分類文献集合に付与されているFタームは、1042種類存在していた。
【0069】
被分類文献集合に付与されているFタームの全種を要素とする1042次元の特徴量ベクトルが生成された。このとき、各文献についてFタームが付与されている場合にはそのFタームに対応する要素の値が「1」とされ、付与されていない場合にはその要素の値が「0」とされた。そして、この特徴量ベクトルを用いてK−Means法クラスタリングを行い、被分類文献集合の各文献が8個のクラスタに分類された。クラスタリング処理には、Python言語のScikit−learnライブラリーパッケージが利用された。
【0070】
図11は実施例1の文献分類の結果を示す表であり、
図11(a)は5出願人の各々におけるクラスタ毎の文献数を示す表であり、
図11(b)は出願人Aの特定文献1件と他の文献との類似度の統計情報をクラスタごとにまとめた表である。
図11(a)によれば、出願人ごとに文献数が多いクラスタとそうでないクラスタとが存在していることがわかる。出願人Aについてはクラスタ(CL)0及びクラスタ(CL)4に文献が集中しており、出願人Bについてはクラスタ(CL)4に文献が集中しており、出願人Dについてはクラスタ(CL)1、クラスタ(CL)3、及びクラスタ(CL)6に文献が集中しており、出願人Eについてはクラスタ(CL)3に文献が集中している。即ち、本実施例の文献分類によりクラスタごとの文献数分布が出願人ごとに特色を示していることが分かる。
【0071】
図11(b)では、出願人Aのクラスタ2に分類された文献1件が選択され、この文献と他の文献との類似度がPython言語のScikit−learnライブラリーパッケージにあるcosine_similarity法を用いて算出された。
図11(b)によれば、類似度の平均値、最大値及び最小値のいずれにおいても、選択された文献が属するクラスタ2が最も大きくなっていることがわかる。また、クラスタ2と他の各クラスタとの間の平均類似度を比較すれば、クラスタ2と他の各クラスタとの間の距離感も見ることができる。
従って、1042次元のFターム特徴量ベクトルを用いたK−Means法クラスタリングによる文献分類により、各文献の特色に応じて被分類文献集合を適切に分類できていることが実証される。
【0072】
加えて、上述の289件の被分類文献集合が、他のクラスタ分析手法であるAgglomerative法クラスタリングにより8個のクラスタに分類された。このクラスタリングにおいても上述の1042次元のFターム特徴量ベクトルが用いられた。このクラスタリング処理には、Python言語のScikit−learnライブラリーパッケージが利用された。
【0073】
図12は、同一の被分類文献集合をK−Means法クラスタリング及びAgglomerative法クラスタリングの各々で分類した結果を示す表である。
図12によれば、2つのクラスタ分析結果のマトリクスにおいて、文献が集中しているセルとそうでないセルとが存在していることがわかる。例えば、K−Means法クラスタリングでクラスタ(CL)1に分類された文献群のほとんどは、Agglomerative法クラスタリングでクラスタ(CL)4に分類されており、逆に、Agglomerative法クラスタリングでクラスタ(CL)4に分類された文献はすべてK−Means法クラスタリングでクラスタ(CL)1に分類されている。即ち、K−Means法クラスタリングで分類された各クラスタとAgglomerative法クラスタリングで分類された各クラスタとは或る程度の相関性を示すといえる。
これにより、K−Means法に限られず、他のクラスタ分析手法を用いても、文献を的確に分類できることが実証される。
【0074】
更に、被分類文献集合に付与されているFタームの全種(1042種類)を要素とせず、その一部の種(355種類)を要素とする355次元の特徴量ベクトルが生成され、この特徴量ベクトルを用いてK−Means法クラスタリングにより文献分類が行われた。このときの被分類文献集合は上述と同様である(289件)。また、テーマコード「4C083」を含むFタームが特徴量ベクトルの要素に用いられ、テーマコード「4C083」を含むFタームが付与されている場合にはそのFタームに対応する要素の値が「1」とされ、付与されていない場合にはその要素の値が「0」とされた。
【0075】
図13は、Fターム全種を要素とする1042次元の特徴量ベクトル及びFタームの一部の種を要素とする355次元の特徴量ベクトルを用いて同一の被分類文献集合を同一のクラスタ分析で分類した結果を示す表である。
図13の結果によっても、いずれの特徴量ベクトルを用いても特色ある分類ができていることがわかる。これにより、被分類文献集合に付与されているFタームの一部の種を用いて生成された特徴量ベクトルを用いても文献を的確に分類できることが実証される。
【0076】
また、被分類文献集合に付与されているFタームの全種(1042種類)を要素とすると共に、特許請求の範囲の記載に検索文字列「染毛」が含まれるか否かに対応する要素を付加した1043次元の特徴量ベクトルが生成され、この特徴量ベクトルを用いてK−Means法クラスタリングにより文献分類が行われた。このときの被分類文献集合は上述と同様である(289件)。このとき、各文献について、Fタームが付与されている場合にはそのFタームに対応する要素の値が「1」とされ、付与されていない場合にはその要素の値が「0」とされ、特許請求の範囲に検索文字列「染毛」が含まれる場合には対応する要素の値が「2」とされ、付与されていない場合にはその要素の値が「0」とされた。即ち、検索文字列の検索結果に対応する要素に重み付けを行った特徴量ベクトルが用いられた。
【0077】
図14は、Fターム全種を要素とする1042次元の特徴量ベクトル及び文字列検索の結果を要素に加えた1043次元の特徴量ベクトルを用いて同一の被分類文献集合を同一のクラスタ分析で分類した結果を示す表である。
図14の結果によっても、いずれの特徴量ベクトルを用いても特色ある分類ができていることがわかる。これにより、Fタームに対応する要素のみでなく文字列検索の結果を要素に加えた特徴量ベクトルを用いても文献を的確に分類できることが実証される。
【0078】
更に、被分類文献集合に付与されているFタームの全種(1042種類)を要素とすると共に、被分類文献集合の筆頭IPCを要素に加えた1074次元の特徴量ベクトルが生成され、この特徴量ベクトルを用いてK−Means法クラスタリングにより文献分類が行われた。筆頭IPCは32種類であり、被分類文献集合は上述と同様である(289件)。
図15は、Fターム全種を要素とする1042次元の特徴量ベクトル及び筆頭IPCを要素に加えた1074次元の特徴量ベクトルを用いて同一の被分類文献集合を同一のクラスタ分析で分類した結果を示す表である。
図15の結果によっても、いずれの特徴量ベクトルを用いても特色ある分類ができていることがわかる。これにより、Fタームに対応する要素のみでなく筆頭IPCを要素に加えた特徴量ベクトルを用いても文献を的確に分類できることが実証される。
【実施例2】
【0079】
次に、実施例1とは異なる文献データベースとして、独立行政法人工業所有権情報・研修館が運営する特許情報プラットフォーム(J−PlatPat)が利用された。この文献データベースに対して、公報全文における文字列「食器」、「油汚」及び「泡切」がAND条件で指定された検索条件で検索が実行され、35件の特許文献が被分類文献集合として抽出された。この被分類文献集合に付与されているFタームは、345種類存在していた。
【0080】
被分類文献集合に付与されているFタームの全種を要素とする345次元の特徴量ベクトルが生成された。このとき、各文献についてFタームが付与されている場合にはそのFタームに対応する要素の値が「1」とされ、付与されていない場合にはその要素の値が「0」とされた。そして、この特徴量ベクトルを用いてK−Means法クラスタリングを行い、被分類文献集合の各文献が6個のクラスタに分類された。クラスタリング処理には、Python言語のScikit−learnライブラリーパッケージが利用された。
【0081】
続いて、同一の被分類文献集合に付与されているFタームの一部の種(126種類)を要素とする126次元の特徴量ベクトルが生成され、この特徴量ベクトルを用いてK−Means法クラスタリングにより被分類文献集合が5個のクラスタに分類された。Fタームの一部の種としては、テーマコード「4H003」を含むFタームが用いられ、テーマコード「4H003」を含むFタームが付与されている場合にはそのFタームに対応する要素の値が「1」とされ、付与されていない場合にはその要素の値が「0」とされた。
【0082】
図16は、Fターム全種を要素とする345次元の特徴量ベクトル及びFタームの一部の種を要素とする126次元の特徴量ベクトルを用いて同一の被分類文献集合をクラスタ数の異なる同一のクラスタ分析手法で分類した結果を示す表である。
図16の結果によれば、2つのクラスタ分析結果のマトリクスにおいて、文献が集中しているセルとそうでないセルとが存在していることがわかる。即ち、いずれの特徴量ベクトルを用いても或いは異なるクラスタ数のクラスタ分析を用いても特色ある分類ができていることがわかる。
これにより、文献データベースを制限せず、特徴量ベクトルの要素数を制限せず、クラスタリングのクラスタ数を制限することなく、文献を的確に分類できることが実証される。
【0083】
加えて、上述の345次元の特徴量ベクトル及び126次元の特徴量ベクトルに対してLDA法による潜在トピック分析がそれぞれ適用された。このとき、トピック数が5に設定され、潜在トピック分析の結果として得られる潜在トピックの配合比率のうち最大比率を示す潜在トピックがその文献の代表トピックとされた。これにより、35件の被分類文献集合が5個の潜在トピックに分類された。LDA法による潜在トピック分析の処理にはPython言語のgensimライブラリーパッケージが用いられた。なお、その潜在トピック分析において各潜在トピックを構成する上位10個のトピックワード(Fターム)を出力したところ、5つの潜在トピックの合計で35種のFタームが出力されていた。
【0084】
図17は、LDA法による潜在トピック分析を用いた文献分類の結果を示す表である。
図17(a)はFターム全種を要素とする345次元の特徴量ベクトルを用いて同一の被分類文献集合をK−Means法クラスタリング及び潜在トピック分析(LDA法)で分類した結果を示す表であり、
図17(b)はFタームの一部の種を要素とする126次元の特徴量ベクトルを用いて同一の被分類文献集合をK−Means法クラスタリング及び潜在トピック分析(LDA法)で分類した結果を示す表である。
図17によれば、K−Means法クラスタリングによるクラスタごとの文献数分布と、潜在トピック分析(LDA法)による代表トピックごとの文献数分布とのマトリクスにおいて、文献が集中するセルとそうでないセルとが見受けられ、いずれの分析手法を用いても特色ある分類ができていることがわかる。
従って、潜在トピック分析を用いたとしても、クラスタ分析と同様に、文献を的確に分類できることが実証される。
【実施例3】
【0085】
実施例3では、文献データベースとして、独立行政法人工業所有権情報・研修館が運営する特許情報プラットフォーム(J−PlatPat)のコンピュータソフトウェアデータベース(CSDB)が利用された。この文献データベースで管理されるマニュアル、単行本、国内技術雑誌、非技術雑誌、外国学会論文、国内学会論文、企業技報、団体機関誌、予稿集が対象文献とされた。これら各対象文献には、多観点分類に基づく分類コードとしてのCSコードが付与されている。
これら対象文献に対して、フリーワードとして「文献」、「分類」及び「解析」がAND条件で指定された検索条件で検索が実行され、22件の文献が抽出された(以降、A群と表記する)。
更に、当該対象文献に対して、フリーワードとして「データベース」、「ファイル」、「検索」及び「類似度」がAND条件で指定された検索条件で検索が実行され、23件の文献が抽出された(以降、B群と表記する)。
A群及びB群の文献集合が被分類文献集合とされ、被分類文献集合に付与されているCSタームは、トータルで121種類であった。
【0086】
被分類文献集合に付与されているCSタームの全種を要素とする121次元の特徴量ベクトルが生成された。このとき、各文献についてCSタームが付与されている場合にはそのCSタームに対応する要素の値が「1」とされ、付与されていない場合にはその要素の値が「0」とされた。そして、この特徴量ベクトルを用いてK−Means法クラスタリングを行い、被分類文献集合の各文献が6個のクラスタに分類された。クラスタリング処理には、Python言語のScikit−learnライブラリーパッケージが利用された。
同様に、上述の特徴量ベクトルを用いてK−Means法クラスタリングを行い、被分類文献集合の各文献が3個のクラスタに分類された。
【0087】
図18は、実施例3における文献分類の結果を示す表であり、
図18(a)は121次元のCSターム特徴量ベクトルを用いたK−Means法クラスタリングにより6クラスタに分類した結果を示し、
図18(b)は
図18(a)と同一のCSターム特徴量ベクトルを用いた同一のクラスタリングにより3クラスタに分類した結果を示す。
図18によれば、クラスタごとのA群及びB群の各々の文献数分布に或る程度の特色が見て取れるため、CSタームによる特徴量ベクトルを用いても特色ある分類ができていることがわかる。
従って、多観点分類に基づく他の分類コードを用いたとしても、Fタームクラスタ分析と同様に、特許文献のFタームを用いるのと同様に、文献を的確に分類できることが実証される。
【0088】
上述の説明で用いた複数のフローチャートでは、複数の工程(処理)が順番に記載されているが、各実施形態で実行される工程の実行順序は、その記載の順番に制限されない。各実施形態では、図示される工程の順番を内容的に支障のない範囲で変更することができる。
【符号の説明】
【0089】
10 文献分類装置
11 CPU
12 メモリ
13 入出力I/F
14 通信ユニット
15 出力装置
16 入力装置
18 文献分類プログラム
21 検索部
22 取得部
23 ベクトル生成部
24 クラスタリング部
25 生成部
27 潜在トピック分析部
29 文字列検索部