(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022183023
(43)【公開日】2022-12-08
(54)【発明の名称】文献マッピング表示装置、文献マッピング表示方法、及び文献マッピング表示プログラム
(51)【国際特許分類】
G06Q 50/10 20120101AFI20221201BHJP
G06Q 50/18 20120101ALI20221201BHJP
【FI】
G06Q50/10
G06Q50/18 310
【審査請求】未請求
【請求項の数】21
【出願形態】OL
(21)【出願番号】P 2022071856
(22)【出願日】2022-04-25
(31)【優先権主張番号】P 2021089987
(32)【優先日】2021-05-28
(33)【優先権主張国・地域又は機関】JP
(71)【出願人】
【識別番号】306020818
【氏名又は名称】トヨタテクニカルディベロップメント株式会社
(74)【代理人】
【識別番号】110002516
【氏名又は名称】特許業務法人白坂
(72)【発明者】
【氏名】穴井 晃太
(72)【発明者】
【氏名】四方 祐一
(72)【発明者】
【氏名】山本 俊介
(72)【発明者】
【氏名】津田 萌
(72)【発明者】
【氏名】足立 梢
【テーマコード(参考)】
5L049
【Fターム(参考)】
5L049CC11
5L049CC32
(57)【要約】 (修正有)
【課題】公開されている論文、特許公報等の文献について、その文献内に存在する所定の文章に着目して二次元平面上の分布図に表現する際の客観性を担保するとともに、時間経過による文献の推移を可視化可能とすることのできる文献マッピング表示装置、文献マッピング表示方法及び文献マッピング表示プログラムを提供する。
【解決手段】文献マッピング表示装置において、CPU11は、複数の文献を取得する文献取得部110と、複数の文献から所定の文章を取得する文章取得部120と、複数の文献同士を、複数の文献のそれぞれに含まれる所定の文章の類似性に従い二次元平面に配置する文献配置部130と、二次元平面に存在する所定領域における文献数の変化量を抽出する抽出部140と、二次元平面に存在する所定領域における文献数の変化量に基づいて成長度を計算する計算部150と、成長度を出力する出力部160と、を備える。
【選択図】
図3
【特許請求の範囲】
【請求項1】
複数の文献を取得する文献取得部と、
前記複数の文献から所定の文章を取得する文章取得部と、
前記複数の文献同士を、前記複数の文献のそれぞれに含まれる所定の文章の類似性に従い二次元平面に配置する文献配置部と、
前記二次元平面に存在する所定領域における文献数の変化量を抽出する抽出部と、
前記二次元平面に存在する所定領域における文献数の変化量に基づいて成長度を計算する計算部と、
前記成長度を出力する出力部と、を備える
ことを特徴とする文献マッピング表示装置。
【請求項2】
複数の文献を取得する文献取得部と、
前記複数の文献から所定の文章を取得する文章取得部と、
前記複数の文献同士を、前記複数の文献のそれぞれに含まれる所定の文章の類似性に従い二次元平面に配置する文献配置部と、
前記二次元平面に存在する所定領域における文献数の変化量を抽出する抽出部と、
前記二次元平面に存在する所定領域における文献数の変化量に基づいて成長度を計算する計算部と、
前記二次元平面に存在する所定領域における前記複数の文献に基づいて集積領域を検出する集積検出部と、
所定領域における成長度と前記集積領域の二次元平面における時系列の変化点を二次元平面に表示する時系列変化出力部と、を備える
ことを特徴とする文献マッピング表示装置。
【請求項3】
前記文献取得部は、クローリング部を備えインターネット回線を通じて前記複数の文献を取得する請求項1または2に記載の文献マッピング表示装置。
【請求項4】
前記複数の文献のそれぞれには、文献の特徴を示すタグ情報が文献に応じて付されていて、
前記文献取得部は、前記タグ情報に基づいて前記複数の文献を取得する請求項3に記載の文献マッピング表示装置。
【請求項5】
前記文献配置部における前記所定の文章同士の類似性に従う二次元平面への配置は自然言語処理に基づく請求項1または2に記載の文献マッピング表示装置。
【請求項6】
前記文献配置部は、前記自然言語処理により前記複数の文献のそれぞれに特徴ベクトルを生成するベクトル化部を備える請求項5に記載の文献マッピング表示装置。
【請求項7】
前記抽出部は、前記二次元平面をグリッド状に区画して生じる一の区画を前記所定領域として前記所定領域内に存在する文献数を抽出する請求項1または2に記載の文献マッピング表示装置。
【請求項8】
前記抽出部は、前記二次元平面に存在する所定領域における文献数の比較に基づいて文献数の変化量を抽出する請求項1または2に記載の文献マッピング表示装置。
【請求項9】
前記抽出部は二次元平面における所定の文章の集合の変化を抽出する請求項1または2に記載の文献マッピング表示装置。
【請求項10】
前記抽出部は、前記所定領域における前記文献数の変化量に基づいて前記二次元平面における前記所定の文章の集合の変化の差分を抽出する請求項1または2に記載の文献マッピング表示装置。
【請求項11】
前記計算部は、前記一の区画に隣接する他の区画に存在する文献数の変化量から前記一の区画の特徴を計算する請求項7に記載の文献マッピング表示装置。
【請求項12】
前記出力部は、前記成長度の大小を前記二次元平面において矢印の種類により表示する請求項1に記載の文献マッピング表示装置。
【請求項13】
前記出力部は、前記成長度を文献それぞれに対して数値として表示する請求項1に記載の文献マッピング表示装置。
【請求項14】
前記集積検出部は、前記二次元平面に存在する所定領域における前記複数の文献の密度に基づいて集積領域を検出する請求項2に記載の文献マッピング表示装置。
【請求項15】
前記集積領域には、任意の集積領域数が指定される請求項2に記載の文献マッピング表示装置。
【請求項16】
前記時系列変化出力部は、前記二次元平面において前記複数の文献の集積領域における時系列の変化点を円により表示し、前記円同士をつなぐ線により表示する請求項2に記載の文献マッピング表示装置。
【請求項17】
前記時系列変化出力部は、前記成長度の大小を前記二次元平面において矢印の種類により表示する請求項2に記載の文献マッピング表示装置。
【請求項18】
コンピュータが、
複数の文献を取得する文献取得ステップと、
前記複数の文献から所定の文章を取得する文章取得ステップと、
前記複数の文献同士を、前記複数の文献のそれぞれに含まれる所定の文章の類似性に従い二次元平面に配置する文献配置ステップと、
前記二次元平面に存在する所定領域における文献数の変化量を抽出する抽出ステップと、
前記二次元平面に存在する所定領域における文献数の変化量に基づいて成長度を計算する計算ステップと、
前記成長度を出力する出力ステップと、を実行する
ことを特徴とする文献マッピング表示方法。
【請求項19】
コンピュータに、
複数の文献を取得する文献取得機能と、
複数の文献から所定の文章を取得する文章取得機能と、
前記複数の文献同士を、前記複数の文献のそれぞれに含まれる所定の文章の類似性に従い二次元平面に配置する文献配置機能と、
前記二次元平面に存在する所定領域における文献数の変化量を抽出する抽出機能と、
前記二次元平面に存在する所定領域における文献数の変化量に基づいて成長度を計算する計算機能と、
前記成長度を出力する出力機能と、を実現させる
ことを特徴とする文献マッピング表示プログラム。
【請求項20】
コンピュータが、
複数の文献を取得する文献取得ステップと、
前記複数の文献から所定の文章を取得する文章取得ステップと、
前記複数の文献同士を、前記複数の文献のそれぞれに含まれる所定の文章の類似性に従い二次元平面に配置する文献配置ステップと、
前記二次元平面に存在する所定領域における文献数の変化量を抽出する抽出ステップと、
前記二次元平面に存在する所定領域における文献数の変化量に基づいて成長度を計算する計算ステップと、
前記二次元平面に存在する所定領域における前記複数の文献に基づいて集積領域を検出する集積検出ステップと、
所定領域における成長度と前記集積領域の二次元平面における時系列の変化点を二次元平面に表示する時系列変化出力ステップと、を実行する
ことを特徴とする文献マッピング表示方法。
【請求項21】
コンピュータに、
複数の文献を取得する文献取得機能と、
前記複数の文献から所定の文章を取得する文章取得機能と、
前記複数の文献同士を、前記複数の文献のそれぞれに含まれる所定の文章の類似性に従い二次元平面に配置する文献配置機能と、
前記二次元平面に存在する所定領域における文献数の変化量を抽出する抽出機能と、
前記二次元平面に存在する所定領域における文献数の変化量に基づいて成長度を計算する計算機能と、
前記二次元平面に存在する所定領域における前記複数の文献に基づいて集積領域を検出する集積検出機能と、
所定領域における成長度と前記集積領域の二次元平面における時系列の変化点を二次元平面に表示する時系列変化出力機能と、を実現させる
ことを特徴とする文献マッピング表示プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文献マッピング表示装置、文献マッピング表示方法、及び文献マッピング表示プログラムに関し、特に論文、特許公報等の文献についてどの分野において増加しているのか等を可視化するための文献マッピング表示装置とその方法及びプログラムに関する。
【背景技術】
【0002】
公開されている論文、特許公報等の文献について、その文献内に存在する所定の文章に着目して二次元平面上の分布図として文献の位置、数が表現されることがある。例えば、二次元平面上において情報要素の多少に応じて配色を濃くする等の視覚的な表示(いわゆるヒートマップ等の表示)が用いられていた(特許文献1参照)。
【0003】
しかしながら、複数の文献を二次元平面上に配置する手法では、文献の類似度を視覚的に表示することは可能であっても、二次元平面上の配置を理解する者の経験、感覚等により左右されることもあり、客観性は十分とは言えない。また、複数の文献を二次元平面上に配置する手法の場合、複数の文献の集合が変化すると二次元平面上の文献の配置も変化するため、時間経過による文献の推移を判断することが難しかった。なお、従前の表示の手法によると、文献中に存在する所定の文章を参考に、複数の文献が二次元平面上に視覚的に整理されるため、どの分野が注目されているのか等の文献の動向調査に用いられていた。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は上述の点に鑑みなされたものであり、公開されている論文、特許公報等の文献について、その文献内に存在する所定の文章に着目して二次元平面上の分布図に表現する際の客観性を担保するとともに、時間経過による文献の推移を可視化可能とすることのできる文献マッピング表示装置を提供し、併せて文献マッピング表示方法、文献マッピング表示プログラムも提供する。
【課題を解決するための手段】
【0006】
すなわち、実施形態の文献マッピング表示装置は、複数の文献を取得する文献取得部と、複数の文献から所定の文章を取得する文章取得部と、複数の文献同士を、前記複数の文献のそれぞれに含まれる所定の文章の類似性に従い二次元平面に配置する文献配置部と、二次元平面に存在する所定領域における文献数の変化量を抽出する抽出部と、二次元平面に存在する所定領域における文献数の変化量に基づいて成長度を計算する計算部と、成長度を出力する出力部とを備えることを特徴とする。
【0007】
加えて、実施形態の文献マッピング表示装置は、複数の文献を取得する文献取得部と、複数の文献から所定の文章を取得する文章取得部と、複数の文献同士を、複数の文献のそれぞれに含まれる所定の文章の類似性に従い二次元平面に配置する文献配置部と、二次元平面に存在する所定領域における文献数の変化量を抽出する抽出部と、二次元平面に存在する所定領域における文献数の変化量に基づいて成長度を計算する計算部と、二次元平面に存在する所定領域における複数の文献に基づいて集積領域を検出する集積検出部と、所定領域における成長度と集積領域の二次元平面における時系列の変化点を二次元平面に表示する時系列変化出力部とを備えることを特徴とする。
【0008】
さらに、文献取得部は、クローリング部を備えインターネット回線を通じて複数の文献を取得することとしてもよい。
【0009】
さらに、複数の文献のそれぞれには、文献の特徴を示すタグ情報が文献に応じて付されていて、文献取得部は、前記タグ情報に基づいて前記複数の文献を取得することとしてもよい。
【0010】
さらに、文献配置部における所定の文章同士の類似性に従う二次元平面への配置は自然言語処理に基づくこととしてもよい。
【0011】
さらに、文献配置部は、自然言語処理により複数の文献のそれぞれに特徴ベクトルを生成するベクトル化部を備えることとしてもよい。
【0012】
さらに、抽出部は、二次元平面をグリッド状に区画して生じる一の区画を所定領域として所定領域内に存在する文献数を抽出することとしてもよい。
【0013】
さらに、抽出部は、二次元平面に存在する所定領域における文献数の比較に基づいて文献数の変化量を抽出することとしてもよい。
【0014】
さらに、抽出部は、二次元平面における所定の文章の集合の変化を抽出することとしてもよく、また、抽出部は、所定領域における前記文献数の変化量に基づいて二次元平面における所定の文章の集合の変化の差分を抽出することとしてもよい。
【0015】
さらに、計算部は、一の区画に隣接する他の区画に存在する文献数の変化量から一の区画の特徴を計算することとしてもよい。
【0016】
さらに、出力部は、成長度の大小を二次元平面において矢印の種類により表示することとしてもよい。またさらに、出力部は、成長度を文献それぞれに対して数値として表示することとしてもよい。
【0017】
さらに、集積検出部は、二次元平面に存在する所定領域における複数の文献の密度に基づいて集積領域を検出することとしてもよく、集積領域には、任意の集積領域数が指定されることとしてもよい。また、時系列変化出力部は、二次元平面において複数の文献の集積領域における時系列の変化点を円により表示し、円同士をつなぐ線により表示することとしてもよい。またさらに、時系列変化出力部は、成長度の大小を二次元平面において矢印の種類により表示することとしてもよい。
【発明の効果】
【0018】
本発明の文献マッピング表示装置は、複数の文献を取得する文献取得部と、複数の文献から所定の文章を取得する文章取得部と、複数の文献同士を、前記複数の文献のそれぞれに含まれる所定の文章の類似性に従い二次元平面に配置する文献配置部と、二次元平面に存在する所定領域における文献数の変化量を抽出する抽出部と、二次元平面に存在する所定領域における文献数の変化量に基づいて成長度を計算する計算部と、成長度を出力する出力部とを備えるため、公開されている論文、特許公報等の文献について、その文献内に存在する所定の文章に着目して二次元平面上の分布図に表現する際の客観性を担保するとともに、時間経過による文献の推移を可視化可能とすることができる。なお、文献マッピング表示方法及び文献マッピング表示プログラムにおいても同様の効果を得ることができる。
【0019】
加えて、本発明の文献マッピング表示装置は、複数の文献を取得する文献取得部と、複数の文献から所定の文章を取得する文章取得部と、複数の文献同士を、複数の文献のそれぞれに含まれる所定の文章の類似性に従い二次元平面に配置する文献配置部と、二次元平面に存在する所定領域における文献数の変化量を抽出する抽出部と、二次元平面に存在する所定領域における文献数の変化量に基づいて成長度を計算する計算部と、二次元平面に存在する所定領域における複数の文献に基づいて集積領域を検出する集積検出部と、所定領域における成長度と集積領域の二次元平面における時系列の変化点を二次元平面に表示する時系列変化出力部とを備えるため、公開されている論文、特許公報等の文献について、その文献内に存在する所定の文章に着目して二次元平面上の分布図に表現する際の客観性を担保するとともに、時間経過による文献の推移を可視化可能とすることができる。なお、文献マッピング表示方法及び文献マッピング表示プログラムにおいても同様の効果を得ることができる。
【図面の簡単な説明】
【0020】
【
図1】第1及び第2実施形態に共通の文献マッピング表示装置の概要を示す概略構成図である。
【
図2】第1及び第2実施形態に共通の文献マッピング表示装置内の構成を示すブロック図である。
【
図3】第1実施形態の文献マッピング表示装置内の機能部を示すブロック図である。
【
図4】第1実施形態の複数の文献を表示する二次元平面の模式図である。
【
図5】(A)は二次元平面の模式図であり、(B)はグリッド状の区画を示す模式図である。
【
図6】グリッド状の区画における成長度の計算例を示す第1模式図であり、(A)は横軸方向の計算例であり、(B)は縦軸方向の計算例であり、(C)はある区画の全体の成長度を求める計算例である。
【
図7】グリッド状の区画における成長度の計算例を示す第2模式図であり、(A)は横軸方向の集計例であり、(B)は縦軸方向の集計例であり、(C)はある区画の全体の成長度の集計例である。
【
図8】成長度の表示例であり、(A)は矢印表示の例であり、(B)は数値表示の例である。
【
図9】第1実施形態の文献マッピング表示装置の主要な制御を示す第1フローチャートである。
【
図10】第1実施形態の文献マッピング表示装置の主要な制御を示す第2フローチャートである。
【
図11】第1実施形態の文献マッピング表示装置の主要な制御を示す第3フローチャートである。
【
図12】第2実施形態の文献マッピング表示装置内の機能部を示すブロック図である。
【
図13】第2実施形態の複数の文献を表示する二次元平面の模式図である。
【
図14】
図13の二次元平面に文献の集積領域の円と当該円をつなぐ線を重ねて表示する模式図である。
【
図16】第2実施形態の文献マッピング表示装置の主要な制御を示す第1フローチャートである。
【
図17】第2実施形態の文献マッピング表示装置の主要な制御を示す第2フローチャートである。
【
図18】第2実施形態の文献マッピング表示装置の主要な制御を示す第3フローチャートである。
【発明を実施するための形態】
【0021】
第1実施形態及び第2実施形態の文献マッピング表示装置は、複数の文献についてそれらの文献中に存在する所定の文章による類似性の高低、いわゆる文献同士の近さを二次元平面上に表すとともに、二次元平面における文献数の変化量を抽出して、どの方向に文献数が伸びているのかを視覚的に明らかにして表示する装置である。
【0022】
複数の文献とは、例えば、国内外において発行(刊行)される論文(研究論文、学会報告)、技報(技術報告)、公開特許公報、特許公報等である。加えて、新聞、雑誌の記事、立法、行政、司法等により公開される法律、規則、通達、若しくは法人等からの発表等の文字により記述された文献であれば、種類は問われない。
【0023】
複数の文献に存在する所定の文章とは、文献内に見られる具体的な意味内容を示す文章となる。例えば、文献の名称、文献の要約、文献の抄録等である。むろん、文章の数は1つの文献当たり1文章に限られず、適宜の数である。
【0024】
加えて、複数の文献のそれぞれには、文献の特徴を示すタグ情報が個々の文献に応じて付されている。文献が論文の場合、タグ情報には、文献の要約の記載、文献のキーワードに加え、文献の公開年度、さらには著者、所属等の書誌事項も含まれる。また、特許公報等の場合、国際特許分類(IPC)、発明者、出願人等の書誌事項もタグ情報に加えられる。なお、これらのタグ情報は、当該文献マッピング表示装置の使用者(ユーザ)による入力もされる。
【0025】
図1は第1実施形態及び第2実施形態に共通の実施形態の文献マッピング表示装置1の構成を示す概略図である。文献マッピングの対象となる文献については、CD-ROM、DVD-ROM等の固定メディア2に格納された状態、または、インターネット回線3を通じて取得可能な文献である。固定メディア2またはインターネット回線3を通じて取得される文献は文献マッピング表示装置1にて取得される。文献マッピング表示装置1は、パーソナルコンピュータ(PC)、タブレット端末、スマートフォン等、種々の電子計算機(計算リソース、コンピュータ)である。また、文献マッピング表示装置1には、データ蓄積のためのサーバ(図示せず)が接続される。
【0026】
図2は第1実施形態及び第2実施形態に共通の文献マッピング表示装置1内の構成を示すブロック図である。当該ブロック図から理解されるように、ハードウェア的にCPU11、RAM12、ROM13、記憶部14、I/O(インプット・アウトプットインターフェース)15により構成される。その他にメインメモリ、LSI等も含まれる。またソフトウェア的に、メインメモリにロードされた文献マッピング表示プログラム等により実現される。
【0027】
文献マッピング表示装置1の各機能部をソフトウェアにより実現する場合、文献マッピング表示装置1は各機能を実現するソフトウェアであるプログラムの命令を実行することで実現される。このプログラムを格納する記録媒体は、「一時的でない有形の媒体」、例えば、CD、DVD、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、このプログラムは、当該プログラムを伝送可能な任意の伝送媒体(通信ネットワーク、放送波等)を介して文献マッピング表示装置1(コンピュータ)に供給されてもよい。
【0028】
文献マッピング表示装置1における各種の記憶部は、RAM12、ROM13であり、記憶部14としてのHDDまたはSSD等の記憶装置である。また、演算処理を実行する各機能部はCPU11等の演算素子である。文献マッピング表示装置1は、
図3のブロック図のとおり、文献取得部110、文章取得部120、文献配置部130、抽出部140、計算部150、出力部160、クローリング部111、ベクトル化部131等の機能部を備える。
【0029】
I/O15は通信(送受信)用のインターフェース、バッファ等である。I/O15は、インターネット回線との接続またはCD-ROM、DVD-ROM等の読取部4(リーダー)からの入力信号の受信、表示部7等への出力信号の送信に用いられ、CPU11と連携する。表示部7は公知のディスプレイ(液晶表示装置、有機EL表示装置等)である。加えて、表示部7はタブレット端末、スマートフォン等の画像表示機能を備える機器としてもよい。さらに、I/O15には、入力装置としてキーボード5、マウス6等の機器が接続される。
【0030】
第1実施形態及び第2実施形態に共通の文献マッピング表示装置1(コンピュータ)は、後述するように、複数の文献と、所定の文章に基づいて二次元平面上の分布図に表現し成長度を可視化して表示する機能を備える。
【0031】
始めに第1実施形態の文献マッピング表示装置1(コンピュータ)の個々の機能部について、
図3のブロック図等を参照して順に説明する。
【0032】
文献取得部110は、複数の文献を取得する。文献の取得に際しては、CD-ROM、DVD-ROM等の固定メディア2に格納された文献であれば、読取部4を通じてデータとして取得可能である。あるいは、インターネット回線に接続されていれば、外部のサーバ(図示せず)から対象となる文献を受信して取得することができる。取得後の文献は、一次的に記憶部14に記憶(格納)される。
【0033】
文献取得部110はクローリング部111を備えることができる。クローリング部111は、クローリング部は、インターネット上に存在するWebサイトの情報を取得して、検索用データベース・インデックスを作成する。そして、クローリング部111は自動的に目的とする文献の存在するWebサイトにアクセスして目的とする文献を取得する。
クローリングに際しては、文献マッピング表示装置1のユーザから目的とする文献(論文の名称、所定官庁の特許等の公報)の情報が入力される。そこで、文献取得部110は文献の情報に基づいてWebサイトを巡回し、該当する文献のhtml情報を取得し、該当する文献を取得する。
【0034】
文章取得部120は、複数の文献から所定の文章を取得する。
【0035】
文献配置部130は、複数の文献のそれぞれに含まれる所定の文章の類似性に従い二次元平面に配置する。さらに、文献配置部130における所定の文章同士の類似性に伴う二次元平面への配置は自然言語処理に基づく。文献中に存在する文章等には言語特有の表現上の揺らぎ、ぶれ等が存在する。そのため、所定の文章同士の類似度の比較を円滑にするため、自然言語処理の利用が望ましい。
【0036】
ここで言う所定の文章同士の類似性とは、相互の文章における意味内容の近さを示す。
【0037】
そして、文献配置部130はベクトル化部131を備える。このベクトル化部131は、自然言語処理により複数の文献のそれぞれに特徴ベクトルを生成する。すなわち、個々の文献は特徴ベクトルを保持している。そして、特徴ベクトルは次元数の削減を通じて二次元に表示可能となっている。そのため、複数の文献のそれぞれは、二次元平面においては基準点(図示せず)から次元削減された特徴ベクトルに応じた位置に配置されることとなる。特徴ベクトルの生成には、例えば、Word2vec等の単語の埋め込みを生成するために使用される一連のモデル群が利用される。
【0038】
文献配置部130が生成する特徴ベクトルは、次元数が数百次元と高次元に及ぶ。このように特徴ベクトルが高次元に及ぶと図示、可視化に非常に煩雑となる。そこで、高次元に及ぶ特徴ベクトルは、二次元にまで次元数が削減される(次元圧縮)。次元数の削減に際しては、事前学習ができるもの、さらには、事前学習した結果に基づいて分布を配置するUMAP処理等の公知の次元圧縮の手法が用いられる。つまりは、次元数の削減において事前学習ができ、学習した結果を用いてその都度実行する際、次元圧縮した二次元平面上の分布は著しく変化しない。これにより、経年の変化量を捉えることができる。なお、事前学習に際しては、複数の文献の所定の文章を網羅的に事前学習することが望ましい。これらは、国内特許であれば、ある時点でのすべての公報に対して事前学習しておいてもよい。さらには事前学習を、例えば国連調査のように数年毎に更新してもよい。
【0039】
図4の模式図は、第1実施形態の複数の文献を二次元平面20に配置した一例である。文献マッピングの対象となる文献は日本国内の特許である。図中、1つの点が1件の文献に相当する。
【0040】
図4の模式図では、複数の文献が二次元平面に表示され、文献の集合が可視化されている。しかしながら、
図4の模式図の段階では、ある時点における文献の集合が表示されているに留まる。
【0041】
抽出部140は、二次元平面に存在する所定領域における文献数の変化量を抽出する。また、所定領域における文献数の変化量に基づいて二次元平面における所定の文章の集合の変化または所定の文章の集合の変化の差分を抽出する。ここで言う文献数の変化量とは、所定領域における或る年度の文献数と所定領域における或る年度の前年度の文献数の差としてもよい。計算部150は、二次元平面に存在する所定領域における文献数の変化量に基づいて当該所定領域の成長度として計算する。また成長度とは文献の変化量からベクトル量を含む特徴(例えば、勾配等)を求めたものを示す。
【0042】
実施形態にあっては、抽出部140は、二次元平面20(
図4参照)をグリッド状に区画して生じる一の区画を所定領域として当該所定領域内に存在する文献数と文献のタグ情報に基づいて文献数の変化量を抽出する。この様子は
図5の模式図として示される。
【0043】
前出の所定領域とは、
図5等に示される二次元平面20の中から分析対象とする所定範囲を規定して区画される部分であり、後出の
図6のグリッド状(格子状)に区画される一の(1つの)区画である。
【0044】
図4の図面上では個々の文献は灰色の点として表現されている。ここで、個々の文献のそれぞれに前出のタグ情報を反映することができる。例えば、タグ情報としてある国際特許分類を「青色」、別の国際特許分類を「橙色」、さらに別の国際特許分類を「緑色」等と色分けすることが可能である。そうすると、タグ情報を手掛かりに、文献分布の傾向把握が可能となる。
【0045】
図5(A)から理解されるように、二次元平面20の中から分析対象とする領域21が選定される。当該二次元平面20の領域21は、均等な所定間隔31を有するグリッド30によりグリッド状(格子状)に区画される。こうして分析対象とする領域21はグリッド30により複数の区画32(いわゆる升目)に区画される。そして、個々の区画32(升目)に存在する文献数の変化量が抽出される。
【0046】
図5(B)では、領域21は横方向をx軸、縦方向をy軸とするx-y平面として表現される。図中の区画32に存在する数字は、具体的な文献数の変化量である。なお、領域21に対する所定間隔31は任意に設定可能である。所定間隔31が広くなると、マクロ的な把握が可能となり、所定間隔31が狭くなると、ミクロ的な把握が可能となる。
【0047】
個々のグリッド30により生じた複数の区画32(升目)に存在する文献数が抽出された後、計算部150は、一の区画に隣接する他の区画に存在する文献数同士から一の区画における成長度を計算する。すなわち、縦軸と横軸の関係から一の区画に隣接する前後及び上下の区画からの差分に基づいて一の区画における特徴が計算される。
【0048】
例えば、或る年度の複数の文献が二次元平面に配置されているとき(前出の
図4、
図5(A)参照)、所定の領域の或る年度の具体的な文献数が求められる(
図5(B)参照)。すなわち、年度のタグ情報に基づいて所定領域の文献数が抽出される。そして、前出の或る年の前年度についても、複数の文献は二次元平面に配置可能であるため、所定の領域の或る年度の前年度の具体的な文献数が求められる(
図5(B)参照)。つまり、年度別にタグ情報に基づいて文献数の変化量が求められる。そこで、個々の区画32毎に、或る年度とその前年度の数値同士(いわゆる文献数同士)の比較(差分)が可能である。そうすると、差分量の多少から文献数の変化の程度の把握が容易となる。
【0049】
前述の差分量からの文献数の変化は、いわゆる年度毎(年単位毎)の文献数変化の把握である。これに加え、複数年度間の差分量(平均の差分量)と、或る年度とその前年度の差分量との比較も可能である。毎年の文献数変化を把握するとともに、ここ数年にわたる文献数変化量との上振れ、下振れ等の差分量についての変化量も算出可能である。当該抽出は抽出部140により実行される。そして、計算部150により、縦軸と横軸の関係から一の区画に隣接する前後及び上下の区画からの差分に基づいて一の区画における特徴が計算される。
【0050】
図6の模式図は一の区画における勾配の計算の仕方を示す。図中のそれぞれの区画内の数値は文献数の変化量である。
図6(A)は横方向となるx軸の計算を示す。計算対象の区画41の文献数の変化量は「7」であり、左に隣接する区画42の文献数の変化量は「5」、右に隣接する区画43の文献数の変化量は「9」である。実施形態の場合、区画43の文献数の変化量「9」から区画42の文献数の変化量「5」が引かれて、差分「4」が得られる。差分に「1/2」が掛けられて「2」が得られる。この「2」が、計算対象の区画41の横方向となるx軸方向の成長度(dx)である。なお、両端は前方差分または後方差分となる(図示せず)。
【0051】
図6(B)は縦方向となるy軸の計算を示す。計算対象の区画41の文献数の変化量は「7」であり、上に隣接する区画44の文献数の変化量は「2」、下に隣接する区画45の文献数の変化量は「0」である。実施形態の場合、区画44の文献数の変化量「0」から区画45の文献数の変化量「2」が引かれて、差分「-2」が得られる。差分に「1/2」が掛けられて「-1」が得られる。この「-1」が、計算対象の区画41の縦方向となるy軸方向の成長度(dy)である。なお、両端は前方差分または後方差分となる(図示せず)。
【0052】
図6(C)はある区画の全体の成長度を求める計算例である。ある区画における横方向(x方向)の成長度(dx)及び縦方向(y方向)の成長度(dy)から、ある区画の全体の成長度(G)が計算される式である。すなわち、各方向の成長度の平方の和に対して平方根が求められる。
図6の例によると、2
2+(-1)
2=5の平方根(√(5))となり、約2.24となる。なお、
図6等に開示の成長度の計算は一例であり、成長度の計算は、図示及び説明の方法に限定されない。
【0053】
計算部150は、
図6にて説明の計算を全ての区画に対して実行する。
図7の模式図は各区画における成長度を示す例である。
図7(A)は全ての区画における横方向となるx軸における成長度(dx)の表示であり、
図7(B)は全ての区画における縦方向となるy軸における成長度(dy)の表示である。
図7(C)は全ての区画における成長度(G)の一覧である。
【0054】
既述のとおり、(i)二次元平面の中からの分析対象とする領域の選定、(ii)その領域へのグリッドの設定による個々の区画の作成、(iii)各区画の成長度の算出の3段階が順に実行される。そうすると、ある特定の区画(例えば前出の区画41)について、その区画における横方向となるx軸方向の成長度(dx)及び縦方向となるy軸方向の成長度(dy)が算出可能となる。
【0055】
そして、出力部160は成長度を出力する。成長度の出力は、
図1の表示部7(ディスプレイ)への画像として表示される。
図8は表示部7における表示例であり、
図8(A)では、成長度は二次元平面において矢印として表示される。
【0056】
図8(A)の例では、矢印は2種類用意され、所定の閾値以上の成長度の場合には黒い矢印22、別の所定の閾値以上の成長度の場合には白抜きの矢印23として表示されている。
図8(B)では、成長度は個々の文献のそれぞれについて、図示の例では文献番号、発明者との関係で数値表示されている。
【0057】
図8(A)の場合、矢印22,23の存在箇所、色を通じて二次元平面における成長度の高い領域の客観的な把握が可能となる。また、
図8(B)の場合、文献毎に成長度は数値として具体的に把握することができる。
【0058】
続いて、第1実施形態の文献マッピング表示方法を文献マッピング表示プログラムとともに説明する。
【0059】
第1実施形態の文献マッピング表示方法は、第1実施形態の文献マッピング表示プログラムに基づいて、文献マッピング表示装置1のCPU11により実行される。文献マッピング表示方法は、文献マッピング表示装置1のCPU11に対して、文献取得機能、文章取得機能、文献配置機能、抽出機能、計算機能、出力機能を実行させ、さらに、クローリング機能を実行させる。各機能は前述の説明と重複するため、詳細は省略する。
【0060】
図9、
図10、及び
図11のフローチャートは第1実施形態の文献マッピング表示装置1のCPU11における文献マッピング表示方法の全体の流れであり、
図9では文献取得ステップ(S110)、文章取得ステップ(S120)、文献配置ステップ(S130)、抽出ステップ(S140)、計算ステップ(S150)、出力ステップ(S160)が実行され、
図10ではクローリングステップ(S111)が実行される。
図11ではベクトル化ステップ(S131)が実行される。
【0061】
文献取得機能は、複数の文献を取得する(S110;文献取得ステップ)。文章取得機能は、複数の文献から所定の文章を取得する(S120;文章取得ステップ)。文献配置機能は、複数の文献同士を、複数の文献のそれぞれに含まれる所定の文章の類似性に従い二次元平面に配置する(S130;文献配置ステップ)。抽出機能は、二次元平面に存在する所定領域における文献数の変化量を抽出する(S140;抽出ステップ)。さらに、抽出機能は、所定領域における文献数の変化量に基づいて二次元平面における所定の文章の集合の変化、または所定の文章の集合の変化の差分を抽出する。計算機能は、二次元平面に存在する所定領域における文献数の変化量に基づいて成長度を計算する(S150;計算ステップ)。出力機能は、成長度を出力する(S160;出力ステップ)。また、クローリング機能は、インターネット回線を通じて複数の文献を取得する(S111;クローリングステップ)(
図10参照)。ベクトル化機能は、自然言語処理により複数の文献のそれぞれに特徴ベクトルを生成する(S131;ベクトル化ステップ)(
図11参照)。
【0062】
続いて第2実施形態の文献マッピング表示装置1(コンピュータ)の個々の機能部について、
図12のブロック図等を参照して順に説明する。第2実施形態の文献マッピング表示装置1の機械構成については第1実施形態の文献マッピング表示装置1と共通であるため説明を省略する。第2実施形態の文献マッピング表示装置1は、
図12のブロック図のとおり、文献取得部110、文章取得部120、文献配置部130、抽出部140、計算部150、集積検出部170、時系列変化出力部180、クローリング部111、ベクトル化部131等の機能部を備える。なお、第2実施形態において、第1実施形態の文献マッピング表示装置1と共通する構成については同じ符号が用いられ、重複説明は省略される。
【0063】
図12のブロック図において、文献取得部110は、複数の文献を取得する。文献取得部110の機能は第1実施形態と同様である。文献取得部110に含まれるクローリング部111の機能は第1実施形態と同様である。文章取得部120は、複数の文献から所定の文章を取得する。文章取得部120の機能は第1実施形態と同様である。
【0064】
第2実施形態の文献配置部130は、複数の文献同士を、複数の文献のそれぞれに含まれる所定の文章の類似性に従い二次元平面に配置する。第2実施形態の文献配置部130における文献に含まれる所定の文章同士の類似性に伴う二次元平面への配置は自然言語処理に基づく。文献の文章中に存在する文言等には言語特有の表現上の揺らぎ、ぶれ等が存在する。そのため、所定の文章同士の類似度の比較を円滑にするため、自然言語処理の利用が望ましい。ここで言う所定の文献に含まれる所定の文章同士の類似性とは、文献相互における意味内容の近さを示す。
【0065】
そして、文献配置部130はベクトル化部131を備える。このベクトル化部131は、自然言語処理により複数の文献のそれぞれに特徴ベクトルを生成する。ベクトル化部131の機能は第1実施形態と同様である。文献配置部130が生成する特徴ベクトルについても、第1実施形態と同様に二次元にまで次元数が削減される(次元圧縮)。そこで、
図13の模式図のように二次元平面への表示を可能としている。
【0066】
図13の模式図は、第2実施形態の複数の文献を二次元平面25に配置した一例である。図中の灰色部分は個々の文献の集合に相当する。なお、灰色の濃淡による区分けは技術分野のおおまかな境界を示している。実際の表示は複数の異なる色のカラー表示であり、点の集合とされる。図示は便宜上異なる濃淡の灰色としている。
【0067】
抽出部140は、二次元平面25に存在する所定領域における文献数の変化量を抽出する。計算部150は、二次元平面に存在する所定領域における文献数の変化量に基づいて成長度を計算する。第2実施形態の文献マッピング表示装置1における抽出部140及び計算部150の機能は、第1実施形態と同様であり、前述の
図5、
図6、
図7、
図8における説明と同様の処理が実行される。
【0068】
集積検出部170は、二次元平面に存在する所定領域における複数の文献に基づいて集積領域を検出する(クラスタリング)。さらには、集積検出部170は、二次元平面に存在する所定領域における複数の文献の密度に基づいて集積領域を検出する(クラスタリング)。検出に際しては、二次元平面に配置された複数の文献は密度ベースクラスタリング手法、k平均法、k近傍法等が用いられる。集積領域は、当該文献マッピング表示装置1のユーザの設定により任意の集積領域数が指定される。このため、ユーザの要望に即した集積領域数に応じた分析が可能となる。
【0069】
時系列変化出力部180は、所定領域における成長度と集積領域の二次元平面における時系列の変化点を二次元平面に表示する。さらに言うと、二次元平面25に存在する所定領域における成長度と複数の文献の集積領域の二次元平面25における時系列の変化点を二次元平面25に表示する。表示形態は次述の
図14、
図15となる。
【0070】
時系列変化出力部180では、集積検出部170にて検出した集積領域毎(クラスタ毎)に時系列の変化点を計算した後に出力される。集積領域毎(クラスタ毎)の時系列の変化点は、二次元平面25に存在する所定領域における複数の文献のうち、集積検出部170にて検出されたそれぞれの集積領域毎(クラスタ毎)に属する複数の文献が使用される。
【0071】
さらに時系列変化出力部180では、それぞれの集積領域(クラスタ)に属する複数の文献を期間毎に当該文献の密となる位置が算出され、複数期間がつなげられて時系列の変化点が表示される。当該文献の密となる位置の算出に際しては、ガウシアン分布等が用いられる。
【0072】
具体的には、
図14の模式図のとおり、文献が数多く密集する(密となる)位置を強調するため、円等の図形が用いられる。これらの円は二次元平面25の随所に表示されている。
【0073】
図14は3年分の表示態様を例示している。それぞれの集積領域(灰色の濃淡により区分けされる領域)には、円が3個含まれる。例えば、各円は、二次元平面25の中の集積領域における今年、1年前、2年前の複数の文献の密となる位置に相当する。図示は3年間分の例であるため円を3個としている。そこで、5年分の累積調査ならば5個の円に数は増やされる。また、年毎(期間毎)に円以外の図形(四角等)が用いられるようにしても良い。さらに、各円は時系列の順に線でつながれる。
図14の表示とすると、複数の文献の密となる位置と、当該位置の時系列を伴う変化の両方が一括して二次元平面25に表示可能となり、視覚的な把握が容易となる。むろん、表示の期間は図示に限らず適宜である。例えば2年毎としてもよい。
【0074】
より詳しくは、
図14を部分的に拡大した
図15の拡大模式図が参照される。
図15では、2018年、2019年、2020年の過去3年分の経時変化の様子が表される。2018年の文献の密となる位置に円28a、2019年の文献の密となる位置に円28b、2020年の文献の密となる位置に円28cとして表示される。また、経時変化の表示を明確化するため、円28a、28b、28cの順に灰色の程度が濃くなるようにしている。このような複数の文献の密となる位置を示す円の位置から二次元平面25における移動(位置の軌跡)がわかりやすくなる。
【0075】
さらに、複数の文献の密となる位置を示す円28aと28bの間は線29pによりつながれ、円28bと28cの間は線29qによりつながれる。線を配置することにより、当該線の長さ(丸同士の距離)が明確化するため、二次元平面25における移動の量(大きく動いているのか、その位置に留まっているのか)の把握が容易となる。また、図示では、線自体も経時変化の表示を明確化するため、線29p、線29qの順に灰色の程度が濃くなるようにしている。
【0076】
図15の例では、矢印は2種類用意され、所定の閾値以上の成長度の場合には黒い矢印26、別の所定の閾値以上の成長度の場合には白抜きの矢印27として表示されている。第1実施形態と同様に、矢印26,27の存在箇所、色を通じて二次元平面25における成長度の高い領域の客観的な把握が可能となる。なお、矢印の種類は図示の2種類には限られない。図示では矢印26,27は三角形として示されている。これは二次元平面25中の表示の簡略化の便宜である。
【0077】
続いて、第2実施形態の文献マッピング表示方法を文献マッピング表示プログラムとともに説明する。
【0078】
第2実施形態の文献マッピング表示方法は、第2実施形態の文献マッピング表示プログラムに基づいて、文献マッピング表示装置1のCPU11により実行される。文献マッピング表示方法は、文献マッピング表示装置1のCPU11に対して、文献取得機能、文章取得機能、文献配置機能、抽出機能、計算機能、集積検出機能、時系列変化出力機能を実行させ、さらに、クローリング機能を実行させる。各機能は前述の説明と重複するため、詳細は省略する。
【0079】
図16、
図17、及び
図18のフローチャートは第2実施形態の文献マッピング表示装置1のCPU11における文献マッピング表示方法の全体の流れであり、
図16では文献取得ステップ(S110)、文章取得ステップ(S120)、文献配置ステップ(S130)、抽出ステップ(S140)、計算ステップ(S150)、集積検出ステップ(S170)、時系列変化出力ステップ(S180)が実行され、
図17ではクローリングステップ(S111)が実行される。
図18ではベクトル化ステップ(S131)が実行される。
【0080】
文献取得機能は、複数の文献を取得する(S110;文献取得ステップ)。文章取得機能は、複数の文献から所定の文章を取得する(S120;文章取得ステップ)。文献配置機能は、複数の文献同士を、複数の文献のそれぞれに含まれる所定の文章の類似性に従い二次元平面に配置する(S130;文献配置ステップ)。抽出機能は、二次元平面に存在する所定領域における文献数の変化量を抽出する(S140;抽出ステップ)。さらに、抽出機能は、所定領域における文献数の変化量に基づいて二次元平面における所定の文章の集合の変化、または所定の文章の集合の変化の差分を抽出する。計算機能は、二次元平面に存在する所定領域における文献数の変化量に基づいて成長度を計算する(S150;計算ステップ)。集積検出機能は、二次元平面に存在する所定領域における複数の文献に基づいて(複数の文献の密度に基づいて)集積領域を検出する(S170;集積検出ステップ)。時系列変化出力機能は、所定領域における成長度と前記集積領域の二次元平面における時系列の変化点を二次元平面に表示する(S180;時系列変化出力ステップ)。また、クローリング機能は、インターネット回線を通じて複数の文献を取得する(S111;クローリングステップ)(
図17参照)。ベクトル化機能は、自然言語処理により複数の文献のそれぞれに特徴ベクトルを生成する(S131;ベクトル化ステップ)(
図18参照)。
【0081】
上述した本発明のコンピュータプログラムは、プロセッサが読み取り可能な記録媒体に記録されていてよく、記録媒体としては、「一時的でない有形の媒体」、例えば、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。
【0082】
なお、上記コンピュータプログラムは、例えば、ActionScript、JavaScript(登録商標)などのスクリプト言語、Objective-C、Java(登録商標)などのオブジェクト指向プログラミング言語、HTML5などのマークアップ言語などを用いて実装できる。
【符号の説明】
【0083】
1 文献マッピング表示装置
2 固定メディア
3 インターネット回線
4 読取部
5 キーボード
6 マウス
7 表示部(ディスプレイ)
11 CPU
12 RAM
13 ROM
14 記憶部
15 I/O(インプット・アウトプットインターフェース)
20,25 二次元平面
22,23,26,27 矢印
28a,28b,28c 円
29p,29q 線
30 グリッド
31 グリッドの間隔
32,41,42,43,44,45 区画
110 文献取得部
111 クローリング部
120 文章取得部
130 文献配置部
131 ベクトル化部
140 抽出部
150 計算部
160 出力部
170 集積検出部
180 時系列変化出力部