IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 学校法人常翔学園の特許一覧

特開2024-123312プログラム、逆クロス分類装置、およびテキストの分類方法
<>
  • 特開-プログラム、逆クロス分類装置、およびテキストの分類方法 図1
  • 特開-プログラム、逆クロス分類装置、およびテキストの分類方法 図2
  • 特開-プログラム、逆クロス分類装置、およびテキストの分類方法 図3
  • 特開-プログラム、逆クロス分類装置、およびテキストの分類方法 図4
  • 特開-プログラム、逆クロス分類装置、およびテキストの分類方法 図5
  • 特開-プログラム、逆クロス分類装置、およびテキストの分類方法 図6
  • 特開-プログラム、逆クロス分類装置、およびテキストの分類方法 図7
  • 特開-プログラム、逆クロス分類装置、およびテキストの分類方法 図8
  • 特開-プログラム、逆クロス分類装置、およびテキストの分類方法 図9
  • 特開-プログラム、逆クロス分類装置、およびテキストの分類方法 図10
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024123312
(43)【公開日】2024-09-12
(54)【発明の名称】プログラム、逆クロス分類装置、およびテキストの分類方法
(51)【国際特許分類】
   G06F 16/35 20190101AFI20240905BHJP
【FI】
G06F16/35
【審査請求】未請求
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2023030611
(22)【出願日】2023-03-01
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.TENSORFLOW
(71)【出願人】
【識別番号】503420833
【氏名又は名称】学校法人常翔学園
(74)【代理人】
【識別番号】100115749
【弁理士】
【氏名又は名称】谷川 英和
(72)【発明者】
【氏名】開本 亮
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA03
5B175FB02
(57)【要約】
【課題】従来、第一種テキストに付加されている第一種コードを適切に第二種テキストに付与できなかった。
【解決手段】第一種コード、第二種コード、共通コードが付与された1以上の第一種テキストと、第二種コード、共通コードが付与された1以上の第二種テキストと、所定の第二種コード及び共通コードを含む1以上の第一種テキストおよび1以上の第二種テキストを取得するテキスト群取得部133と、当該1以上の各第二種テキストと当該1以上の各第一種テキストとの類似度を計算する類似度計算部134と、テキスト群取得部133が取得した1以上の各第二種テキストに対して、類似度計算部134が計算した類似度を用いて、1以上の第一種テキストに付与されている1以上の第一種コードを付与する付与部135とを具備する逆クロス分類装置1により、第一種テキストに付加されている第一種コードを適切に第二種テキストに付与できる。
【選択図】図1
【特許請求の範囲】
【請求項1】
1以上の第一種コードが付与されている1以上の各第一種テキストであり、当該1以上の各第一種テキストに対して第二種コードを付与するクロス分類部により1以上の第二種コードが付与され、当該1以上の各第一種テキストに対して共通コードを付与する共通分類部により1以上の共通コードが付与された1以上の第一種テキストが格納される第一種格納部と、1以上の第二種コードが付与されている1以上の各第二種テキストであり、当該1以上の各第二種テキストに対して共通コードを付与する共通分類部により1以上の共通コードが付与された1以上の第二種テキストが格納される第二種格納部とにアクセス可能なコンピュータを、
前記1以上の第一種テキストおよび前記1以上の第二種テキストから、所定の第二種コード及び共通コードを含む1以上の第一種テキストおよび1以上の第二種テキストを取得するテキスト群取得部と、
前記テキスト群取得部が取得した1以上の各第二種テキストと前記テキスト群取得部が取得した1以上の各第一種テキストとの類似度を計算する類似度計算部と、
前記テキスト群取得部が取得した1以上の各第二種テキストに対して、前記類似度計算部が計算した類似度を用いて、前記1以上の第一種テキストに付与されている1以上の第一種コードを付与する付与部として機能させるためのプログラム。
【請求項2】
前記コンピュータを、
前記1以上の各第一種テキストに対して第二種コードを付与するクロス分類部と、
前記1以上の各第一種テキストおよび前記1以上の各第二種テキストに対して共通コードを付与する共通分類部としてさらに機能させるための請求項1記載のプログラム。
【請求項3】
前記共通コードのコード個数は、前記第一種コードの個数よりも少ない請求項1または請求項2記載のプログラム。
【請求項4】
前記付与部は、
前記1以上の各第二種テキストに対して、類似度が1位からM位(Mは自然数)までの前記第一種テキストの筆頭の第一種コード及び対応するM個の類似度を取得し、
1または2以上の筆頭の各第一種コードごとに、各第一種コードの1以上の類似度の和である累積類似度を取得し、
採用条件を満たす累積類似度に対応する1以上の第一種コードを、前記1以上の各第二種テキストに付与するものとして、前記コンピュータを機能させるための請求項1記載のプログラム。
【請求項5】
前記第一種テキストは論文テキストであり、前記第二種テキストは特許テキストであり、
前記第一種コードはJSTコードであり、前記第二種コードはIPCコードまたはFIまたはFタームまたはCPCコードであり、前記共通コードはJSPS共通コードである請求項1記載のプログラム。
【請求項6】
前記1以上の各第二種テキストが特許法第30条の新規性喪失の例外適用の対象となった特許出願の特許テキストであり、
前記1以上の各第一種テキストが前記1以上の第二種テキストのうちのいずれかの特許テキストに対する特許出願前に公開された発明に対する論文テキストであり、
前記付与部は、
前記1以上の各特許テキストに対してJSTコードを付与し、
前記1以上の各特許テキストごとに、特許テキストに付与されたJSTコードと当該特許テキストに対する前記論文テキストに付与されているJSTコードとが一致するか否かを判断し、前記1以上の各特許テキストごとの判断結果を用いた正確度に関する正確度情報を取得し、当該正確度情報を出力するものとして、前記コンピュータを機能させるための請求項5記載のプログラム。
【請求項7】
1以上の第一種コードが付与されている1以上の各第一種テキストであり、当該1以上の各第一種テキストに対して第二種コードを付与するクロス分類部により1以上の第二種コードが付与され、当該1以上の各第一種テキストに対して共通コードを付与する共通分類部により1以上の共通コードが付与された1以上の第一種テキストが格納される第一種格納部と、
1以上の第二種コードが付与されている1以上の各第二種テキストであり、当該1以上の各第二種テキストに対して共通コードを付与する共通分類部により1以上の共通コードが付与された1以上の第二種テキストが格納される第二種格納部と、
前記1以上の第一種テキストおよび前記1以上の第二種テキストから、所定の第二種コード及び共通コードを含む1以上の第一種テキストおよび1以上の第二種テキストを取得するテキスト群取得部と、
前記テキスト群取得部が取得した1以上の各第二種テキストと前記テキスト群取得部が取得した1以上の各第一種テキストとの類似度を計算する類似度計算部と、
前記テキスト群取得部が取得した1以上の各第二種テキストに対して、前記類似度計算部が計算した類似度を用いて、前記1以上の第一種テキストに付与されている1以上の第一種コードを付与する付与部とを具備する逆クロス分類装置。
【請求項8】
1以上の第一種コードが付与されている1以上の各第一種テキストであり、当該1以上の各第一種テキストに対して第二種コードを付与するクロス分類部により1以上の第二種コードが付与され、当該1以上の各第一種テキストに対して共通コードを付与する共通分類部により1以上の共通コードが付与された1以上の第一種テキストが格納される第一種格納部と、1以上の第二種コードが付与されている1以上の各第二種テキストであり、当該1以上の各第二種テキストに対して共通コードを付与する共通分類部により1以上の共通コードが付与された1以上の第二種テキストが格納される第二種格納部と、テキスト群取得部と、類似度計算部と、付与部とにより実現されるテキストの分類方法であって、
前記テキスト群取得部が、前記1以上の第一種テキストおよび前記1以上の第二種テキストから、所定の第二種コード及び共通コードを含む1以上の第一種テキストおよび1以上の第二種テキストを取得するテキスト群取得ステップと、
前記類似度計算部が、前記テキスト群取得ステップで取得された1以上の各第二種テキストと前記テキスト群取得ステップで取得された1以上の各第一種テキストとの類似度を計算する類似度計算ステップと、
前記付与部が、前記テキスト群取得ステップで取得された1以上の各第二種テキストに対して、前記類似度計算ステップで計算された類似度を用いて、前記1以上の第一種テキストに付与されている1以上の第一種コードを付与する付与ステップとを具備するテキストの分類方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、テキストを分類するためのコードをテキストに付与するプログラム等に関するものである。
【背景技術】
【0002】
従来、論文に対して、論文分類(例えばJSTコード)ではなく、異なるカテゴリーである特許分類(例えばIPCコード)を付与できるクロス分類の技術があった(非特許文献1参照)。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】難波 英嗣、外3名、“学術論文の国際特許分類への自動分類”、[online]、[令和5年2月12日検索]、インターネット[URL:https://www.japio.or.jp/00yearbook/files/2008book/08_4_04.pdf]
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来技術においては、特許に対して、異なるカテゴリーである論文分類を付与できる逆方向のクロス分類の技術はなかった。
【0005】
また、特に特許法30条適用の関係にある論文と特許については、従来技術において、例えば、第一種テキストの例である論文に第二種コードの例であるIPCコードを付与する場合、当該IPCコードは当該論文に対する特許法第30条適用の特許出願のIPCコードに一致しなければならず、かつ特許法第30条適用の特許出願に第一種コードの例であるJSTコードを付与する場合、当該JSTコードは元の論文のJSTコードに一致しなければならないところ、かかる一致が困難であった。また、従来技術においては、第一種テキストに第二種コードを付与した場合の正確度と、第二種テキストに第一種コードを付与した場合の正確度が分からないために、ユーザは、当該コードを付与するシステムを安心して使用できなかった。
【課題を解決するための手段】
【0006】
本第一の発明のプログラムは、1以上の第一種コードが付与されている1以上の各第一種テキストであり、1以上の各第一種テキストに対して第二種コードを付与するクロス分類部により1以上の第二種コードが付与され、1以上の各第一種テキストに対して共通コードを付与する共通分類部により1以上の共通コードが付与された1以上の第一種テキストが格納される第一種格納部と、1以上の第二種コードが付与されている1以上の第二種テキストであり、1以上の各第二種テキストに対して共通コードを付与する共通分類部により1以上の共通コードが付与された1以上の第二種テキストが格納される第二種格納部とにアクセス可能なコンピュータを、1以上の第一種テキストおよび1以上の第二種テキストから、所定の第二種コード及び共通コードを含む1以上の第一種テキストおよび1以上の第二種テキストを取得するテキスト群取得部と、テキスト群取得部が取得した1以上の各第二種テキストとテキスト群取得部が取得した1以上の各第一種テキストとの類似度を計算する類似度計算部と、テキスト群取得部が取得した1以上の各第二種テキストに対して、類似度計算部が計算した類似度を用いて、1以上の第一種テキストに付与されている1以上の第一種コードを付与する付与部として機能させるためのプログラムである。
【0007】
かかる構成により、第一種テキストに付加されている第一種コードを適切に第二種テキストに付与できる。
【0008】
また、本第二の発明のプログラムは、第一の発明に対して、コンピュータを、1以上の各第一種テキストに対して第二種コードを付与するクロス分類部と、1以上の各第一種テキストおよび1以上の各第二種テキストに対して共通コードを付与する共通分類部としてさらに機能させるためのプログラムである。
【0009】
かかる構成により、逆クロス分類の処理を完結できる。
【0010】
また、本第三の発明のプログラムは、第一または第二の発明に対して、共通コードのコード個数は、第一種コードの個数よりも少ないプログラムである。
【0011】
かかる構成により、共通コード1つ当たりのカバー範囲が広く、取り溢しが少なくなる。
【0012】
なお、共通コードのコード個数を、第?種コードのコード個数の10%以下にすること、即ち、コード1つあたりの付与範囲を10倍以上とすることが望ましい。また、コードが階層構造となっている場合は、共通コードの所定階層のコード個数が、第?のコードの所定階層のコード個数よりも?さくなるように、望ましくは10%以下にすればよい。
【0013】
また、本第四の発明のプログラムは、第一から第三いずれか1つの発明に対して、付与部は、1以上の各第二種テキストに対して、類似度が1位からM位(Mは自然数)までの第一種テキストの筆頭の第一種コード及び対応するM個の類似度を取得し、1または2以上の筆頭の各第一種コードごとに、各第一種コードの1以上の類似度の和である累積類似度を取得し、採用条件を満たす累積類似度に対応する1以上の第一種コードを、1以上の各第二種テキストに付与するものとして、コンピュータを機能させるためのプログラムである。
【0014】
かかる構成により、第一種テキストに付加されている1以上の第一種コードをより適切に第二種テキストに付与できる。さらに具体的には、かかる構成により、類似度が1位の第?種コードの筆頭コードのみにより第二種テキストに付与する第一種コードを決定する場合と比較して、多数決の論理でブレや誤差が伴うことを防止し、ロバストな結果は得られることが期待できる。その理由は、以下の通りである。
[1]1位のみならずM位までの第?種コードの類似度の計算結果を利?するものである。ただし、第?種コードのうち、筆頭コードだけを付与するべき候補であると?做す簡易化を?う??で、
[2]当該筆頭コードが重複するか否かに応じて、類似度を合算するか否かで累積類似度を取得し、累積類似度の1位からN位までの第?種の筆頭コードが付与するべきコードであり、その累積類似度の大小により決定するものである。
?このような処理を?えば、いわば多数決の決定により、ロバスト性を確保した妥当な結果が得られると共に、N>=2とすれば、第?種コードの複数付与の処理も?うことができる。
【0015】
Mは5程度とし、Nは3程度とする事が多く、より慎重にするべき場は、Mは10程度とし、Nは3程度とすることが適切である場合が多い。なお、取得した双?のテキスト群に、類似度が低いテキストが混?してしまうことがあり、極端な場合、類似するテキストがない場合もあり得る。このような場合は、所定の類似度よりも低いテキストを棄却するようにM位を決定することで、デメリットを補償しうる。経験上、類似度の計算にCOS類似度を?いる場合は、COS類似度0.6未満は棄却するようにM位を決定することが好適である。
【0016】
また、本第五の発明のプログラムは、第一から第四いずれか1つの発明に対して、第一種テキストは論文テキストであり、第二種テキストは特許テキストであり、第一種コードはJSTコードであり、第二種コードはIPCコードまたはFIまたはタームまたはCPCコードであり、共通コードはJSPS共通コードであるプログラムである。
【0017】
かかる構成により、論文テキストに付加されているJSTコードを適切に特許テキストに付与できる。そして、特許テキストに付与すべきJSTコードが決定されると、論文テキスト及び特許テキストには、IPCコード、JSPSコード及びJSTコードが付与されることになり、3次元座標として精密な表示と把握ができるようになり、例えば、産学連携のマッチングに資するところが大きい。
【0018】
また、本第六の発明のプログラムは、第五の発明に対して、1以上の各第二種テキストが特許法第30条の新規性喪失の例外適用の対象となった特許出願の特許テキストであり、1以上の各第一種テキストが1以上の第二種テキストのうちのいずれかの特許テキストに対する特許出願前に公開された発明に対する論文テキストであり、付与部は、1以上の各特許テキストに対してJSTコードを付与するし、1以上の各特許テキストごとに、特許テキストに付与されたJSTコードと当該特許テキストに対する論文テキストに付与されているJSTコードとが一致するか否かを判断し、1以上の各特許テキストごとの判断結果を用いた正確度に関する正確度情報を取得し、当該正確度情報を出力ものとして、コンピュータを機能させるためのプログラムである。
【0019】
かかる構成により、30条適用の特許テキストと論文テキストとは際だって?い類似度となる必然性があるため、当該論文テキストと当該特許テキストを上記プログラムに与え、予想通りの極めて高い類似度が得られれば、上記プログラムの信頼性を確認できる。
【発明の効果】
【0020】
本発明によるプログラムによれば、第一種テキストに付加されている第一種コードを適切に第二種テキストに付与できる。
【図面の簡単な説明】
【0021】
図1】実施の形態1における逆クロス分類装置1のブロック図
図2】同逆クロス分類装置1の動作例について説明するフローチャート
図3】同クロス分類処理の例について説明するフローチャート
図4】同共通分類処理の例について説明するフローチャート
図5】同逆クロス分類処理の例について説明するフローチャート
図6】同コード決定処理の例について説明するフローチャート
図7】同論文テキストと特許テキストとの類似度の算出結果のイメージ図
図8】同論文テキストと特許テキストとの類似度の算出結果のヒストグラム
図9】同コンピュータシステムの概観図
図10】同コンピュータシステムのブロック図
【発明を実施するための形態】
【0022】
以下、逆クロス分類装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
【0023】
(実施の形態1)
本実施の形態において、共通コードを用いて、第一種テキストに付加されている第一種コードを適切に第二種テキストに付与する逆クロス分類装置について説明する。
【0024】
また、本実施の形態において、第二種テキストと第一種テキストの類似度を算出し、第一種テキストに付与された第一種コードごとに、当該類似度の累積を算出し、当該類似度の累積を用いて、第二種テキストに付与する第一種コードを適切に決定し、当該第一種コードを第二種テキストに付与する逆クロス分類装置について説明する。
【0025】
なお、本実施の形態において、情報Xが情報Yに対応付いていることは、情報Xから情報Yを取得できること、または情報Yから情報Xを取得できることであり、その対応付けの方法は問わない。情報Xと情報Yとがリンク付いていても良いし、同じバッファに存在していても良いし、情報Xが情報Yに含まれていても良いし、情報Yが情報Xに含まれている等でも良い。
【0026】
図1は、本実施の形態における逆クロス分類装置1のブロック図である。逆クロス分類装置1は、格納部11、受付部12、処理部13、および出力部14を備える。格納部11は、第一種格納部111、および第二種格納部112を備える。処理部13は、クロス分類部131、共通分類部132、テキスト群取得部133、類似度計算部134、および付与部135を備える。
【0027】
格納部11には、各種の情報が格納される。各種の情報は、例えば、後述する第一種テキスト、後述する第二種テキスト、後述する各種の学習モデル、後述する採用条件である。なお、格納部11は、通常、第一種格納部111、第二種格納部112を具備するが、第一種格納部111、第二種格納部112は、他の装置が有しても良い。そして、逆クロス分類装置1の格納部11に、他の装置から取得された1以上の第一種テキストが一時的に格納されても良い。また、格納部11に、他の装置から取得された1以上の第二種テキストが一時的に格納されても良い。
【0028】
第一種テキストおよび第二種テキストはテキストである。テキストは、ここでは、通常、論文や特許等の文献の一部または全部の文字情報をいう。テキストの言語は、日本語でも良いし、外国語でも良い。テキストは、例えば、テキストファイルであるが、HTMLファイル、XMLファイル等、そのデータ形式は問わない。
【0029】
第一種格納部111には、1または2以上の第一種テキストが格納される。第一種テキストとは、第二種テキストと種類が異なるテキストである。1以上の各第一種テキストには、1または2以上の第一種コードが付与されている。つまり、1以上の各第一種テキストには、1または2以上の第一種コードが対応付いている。第一種テキストに対応付く第一種コードは、第一種テキストの内容を理解した付与者が付与したコードであることは好適である。コードは、テキストの分類のための情報である。コードは、分類コードと言っても良い。
【0030】
第一種格納部111の1以上の各第一種テキストには、予め後述する第二種コードが付与されていても良い。また、1以上の各第一種テキストに、クロス分類部131が第二種コードを付与しても良い。なお、第一種テキストに予め後述する第二種コードが付与されている場合、逆クロス分類装置1はクロス分類部131を具備しなくても良い。
【0031】
第一種格納部111の1以上の各第一種テキストには、予め後述する共通コードが付与されていても良い。また、1以上の各第一種テキストに、共通分類部132が共通コードを付与しても良い。なお、第一種テキストに予め後述する共通コードが付与されている場合、逆クロス分類装置1は共通分類部132を具備しなくても良い。
【0032】
第一種コード、第二種コード、および共通コードは、コードである。コードは、テキストの内容に対応して付与される記号または符合をいう。テキストに付与されるコードの数は、通常、1個であるが、2個以上でも良い。テキストに付与されるコードの一つは、筆頭コードという。テキストに付与されるコードの数が2個以上である場合、当該2以上のコードは、筆頭コードとそれ以外のコードである。なお、筆頭コードは、通常、そのテキストの内容を代表的に示すものである。
【0033】
テキストにコードが付与されることは、テキストとコードとが対応付けば良い。テキストにコードが付与されることは、例えば、テキストとコードとがリンクづけられること、テキストの中にコードが含まれること、テキストとコードとが対応付けて蓄積されることである。ただし、テキストにコードが付与される態様は問わない。
【0034】
第一種テキストは、例えば、論文テキストである。論文テキストとは、論文のテキストである。論文は、通常、学術論文、科学技術論文であるが、問わない。ただし、第一種テキストは、論文テキスト以外の種類のテキストでも良い。第一種テキストは、特許テキストでも良い。なお、第一種テキストに、図や表が含まれていても良い。
【0035】
第一種テキストが論文テキストである場合、第一種コードは、論文コードである。論文コードとは、論文を分類するためのコードである。論文コードは、例えば、JSTコードである。第一種テキストが特許テキストである場合、第一種コードは、特許コードである。特許コードは、特許分類コードと言っても良い。特許コードは、例えば、IPCコード、FI、Fターム、またはCPC(Cooperative Patent Classification)コードである。第一種コードは、例えば、産業分類コードでも良い。
【0036】
JSTコードとは、日本科学技術推進機構による論文分類コードをいう。JSTコードの個数は、最深の階層で約3,200である。JSTコードは、JST分類コードと言っても良い。
【0037】
IPCコードとは、1971年のストラスブール協定による特許分類コードをいう。IPCコードの個数は、最深の階層で約80,000であり、メイングループで約7,400ある。
【0038】
第一種テキストに付与されている第一種コードは、付与者(人)が付与したコードであることは好適である。第一種コードは、第一種テキストの内容を理解した付与者が付与したコードであることは好適である。
【0039】
第二種格納部112は、1または2以上の第二種テキストが格納される。1以上の各第二種テキストには、1または2以上の第二種コードが付与されている。つまり、1以上の各第二種テキストには、1または2以上の第二種コードが対応付いている。第二種テキストに対応付く第二種コードは、付与者が付与したコードであることは好適である。第二種テキストに対応付く第二種コードは、第二種テキストの内容を理解した付与者が付与したコードであることは好適である。なお、第二種テキストに、図や表が含まれていても良い。
【0040】
第二種テキストは、例えば、特許テキストである。特許テキストとは、特許のテキストである。特許テキストは、特許請求の範囲、明細書、要約書等の特許情報に関するテキストを含むものをいい、図や表が含まれても良い。特許テキストは、例えば、公開特許公報のテキスト、特許公報のテキスト、再公表公報のテキスト、作成中の特許文書(例えば、特許請求の範囲、明細書、および要約書の中の1以上の文書)である。つまり、特許テキストの特許のステータス(公開中、特許権を得ている、出願前等)は問わない。第二種テキストは、特許テキスト以外の種類のテキストでも良い。第一種テキストは、論文テキストでも良い。
【0041】
第二種テキストが特許テキストである場合、第二種コードは、例えば、IPCコード、FI、Fターム、またはCPCコードである。第二種テキストが論文テキストである場合、第二種コードは、例えば、JSTコードである。
【0042】
受付部12は、各種の指示や情報を受け付ける。各種の指示や情報は、例えば、処理開始指示、前処理開始指示、本処理開始指示、出力指示、マップ出力指示である。
【0043】
処理開始指示とは、逆クロス分類装置1の処理部13の全処理を開始する指示である。
【0044】
前処理開始指示とは、前処理の開始の指示である。前処理は、後述する本処理の事前に行われる処理である。前処理は、逆クロス分類装置1の処理部13が行うクロス分類処理および共通分類処理である。
【0045】
本処理開始指示とは、本処理の開始の指示である。本処理とは、後述する逆クロス分類処理の対象のテキスト群を取得し、当該テキスト群を用いて、逆クロス分類を行うことである。本処理は、テキスト群取得部133、類似度計算部134、および付与部135が行う処理である。
【0046】
出力指示とは、情報の出力の指示である。情報とは、第一種コードおよび第二種コードが付与された第一種テキスト、第一種コードおよび第二種コードが付与された第二種テキストである。
【0047】
マップ出力指示とは、マップの出力指示である。マップとは、コードを用いて、テキストの分類を表示した情報である。マップは、例えば、後述する第一テキストマップ、または後述する第二テキストマップである。
【0048】
受付部12は、例えば、ユーザから各種の指示や情報を受け付ける。受付部12は、例えば、図示しない端末装置から各種の指示や情報を受信する。
【0049】
各種の指示や情報入力手段は、タッチパネルやキーボードやマウスやメニュー画面によるもの等、何でも良い。
【0050】
処理部13は、各種の処理を行う。各種の処理とは、例えば、クロス分類部131、共通分類部132、テキスト群取得部133、類似度計算部134、付与部135が行う処理である。逆クロス分類装置1がクロス分類部131および共通分類部132を有しない場合、各種の処理とは、例えば、テキスト群取得部133、類似度計算部134、付与部135が行う処理である。
【0051】
処理部13は、例えば、第一種コードと第二種コードとを付与された第一種テキストと第二種テキストとを用いて、後述する第一テキストマップを構成する。
【0052】
処理部13は、例えば、第一種コードと第二種コードと共通コードを付与された第一種テキストと第二種テキストとを用いて、後述する第二テキストマップを構成する。
【0053】
処理部13は、例えば、1以上の各第二種テキストごとに、第二種テキストに付与された第一種コードと当該第二種テキストに対する第一種テキストに付与されている第一種コードとが一致するか否かを判断し、1以上の各第二種テキストごとの判断結果を用いた正確度に関する正確度情報を取得し、当該正確度情報を出力する。正確度情報は、例えば、正解率、再現率、適合率、F値である。
【0054】
さらに具体的には、処理部13は、例えば、1以上の各特許テキストごとに、特許テキストに付与されたJSTコードと当該特許テキストに対する特許出願前に公開された発明に対する論文テキストに付与されているJSTコードとが一致するか否かを判断し、1以上の各特許テキストごとの判断結果を用いた正確度に関する正確度情報を取得し、当該正確度情報を出力する。
【0055】
処理部13は、例えば、1以上の各第一種テキストごとに、第一種テキストに付与された第二種コードと当該第一種テキストに対する第二種テキストに付与されている第二種コードとが一致するか否かを判断し、1以上の各第一種テキストごとの判断結果を用いた正確度に関する正確度情報を取得し、当該正確度情報を出力する。
【0056】
さらに具体的には、処理部13は、例えば、1以上の各論文テキストごとに、論文テキストに付与されたIPCコードと当該論文テキストに対する特許テキストに付与されているIPCコードとが一致するか否かを判断し、1以上の各論文テキストごとの判断結果を用いた正確度に関する正確度情報を取得し、当該正確度情報を出力する。
【0057】
クロス分類部131は、1以上の各第一種テキストに対して1または2以上の第二種コードを付与する。クロス分類部131は、例えば、第一種格納部111の1以上の各第一種テキストに対して、1以上の第二種コードを付与する。
【0058】
クロス分類部131が第一種テキストに対して第二種コードを付与するアルゴリズムは問わない。クロス分類部131は、例えば、以下の(1)または(2)の方法で、第一種テキストに対して第二種コードを付与する。
(1)機械学習を用いる場合
【0059】
クロス分類部131は、通常、第一種格納部111の1以上の各第一種テキストごとに、第一種学習モデルと第一種テキストとを用いて、機械学習の予測処理により、当該第一種テキストに付与するべき1または2以上の第二種コードを取得する。次に、クロス分類部131は、1以上の各第一種テキストごとに、取得した1以上の第二種コードを付与する。
【0060】
さらに具体的には、クロス分類部131は、例えば、第一種格納部111の1以上の各第一種テキストごとに、第一種学習モデルと第一種テキストとを機械学習の予測モジュールに与え、当該予測モジュールを実行し、1以上の第二種コードを取得する。次に、クロス分類部131は、1以上の各第一種テキストごとに、取得した1以上の第二種コードを付与する。
【0061】
第一種学習モデルは、第一種テキストと1または2以上の第二種コードとを有する2以上の教師データを用いて、機械学習の学習処理により、作成された学習モデルである。学習モデルは、学習器、分類器、分類モデル等と言っても良い。
【0062】
さらに具体的には、処理部13または図示しない学習部は、第一種テキストと1以上の第二種コードとを有する2以上の教師データを機械学習の学習モジュールに与え、当該学習モジュールを実行し、第一種学習モデルを取得し、蓄積する。
【0063】
本明細書における機械学習のアルゴリズムは、深層学習が好適であるが、ランダムフォレスト、決定木等でも良い。つまり、機械学習のアルゴリズムは問わない。また、機械学習には、例えば、TensorFlowのライブラリ、R言語のrandom forestのモジュール、fastText等の各種の機械学習の関数や、種々の既存のライブラリを用いることができる。
(2)文書ベクトルの類似度を用いる場合
【0064】
クロス分類部131は、例えば、第一種格納部111の1以上の各第一種テキストごとに、第一種テキストの文書ベクトルを取得する。次に、クロス分類部131は、例えば、当該文書ベクトルとの類似度が最も大きい文書ベクトルを対応表から決定し、当該文書ベクトルと対になる1または2以上の第二種コードを当該対応表から取得し、当該1以上の第二種コードを第一種テキストに付与しても良い。かかる場合、対応表は、文書ベクトルと1以上の第二種コードとの組である2以上の対応情報を有する。
【0065】
共通分類部132は、1以上の各第一種テキストおよび1以上の各第二種テキストに対して共通コードを付与する。
【0066】
共通コードとは、第一種テキストにも、第二種テキストにも、付与され得るコードである。共通コードは、付与者が付与するコードであることは好適である。共通コードのコード個数は、例えば、第一種コードの個数よりも少ない。共通コードのコード個数は、例えば、第二種コードの個数よりも少ない。
【0067】
第一種テキストが論文テキストであり第二種テキストが特許テキストである場合、および第一種テキストが特許テキストであり第二種テキストが論文テキストである場合は、共通コードは、例えば、JSPS共通コードである。共通コードは、例えば、産業分類コードでも良い。
【0068】
JSPS共通コードとは、日本学術振興会の科学研究費の審査分類コードである。同振興会の科研費において、採択テーマの研究成果報告書(以下、報告書という)には、JSPSコードと、研究成果としての論文の書誌事項及び特許の書誌事項(例えば、出願番号)が記載されている。つまり、かかる報告書には、1または2以上の論文テキストが対応付いている。また、報告書には、1または2以上の特許テキストが対応付いている。
【0069】
共通分類部132は、1以上の各第一種テキストおよび1以上の各第二種テキストに対して共通コードを付与するアルゴリズムは、例えば、以下の(1)または(2)である。
(1)機械学習を用いる場合
【0070】
共通分類部132は、通常、第一種格納部111の1以上の各第一種テキストおよび第二種格納部112の1以上の各第二種テキストの各テキストごとに、共通学習モデルとテキストとを用いて、機械学習の予測処理により、当該テキストに付与するべき1以上の共通コードを取得する。次に、共通分類部132は、1以上の各テキストごとに、取得した1以上の共通コードを付与する。
【0071】
さらに具体的には、共通分類部132は、例えば、第一種格納部111の1以上の各第一種テキストおよび第二種格納部112の1以上の各第二種テキストの各テキストごとに、共通学習モデルとテキストとを機械学習の予測モジュールに与え、当該予測モジュールを実行し、1以上の共通コードを取得する。次に、共通分類部132は、1以上の各テキストごとに、取得した1以上の共通コードを付与する。
【0072】
共通学習モデルは、テキストと1以上の共通コードとを有する2以上の教師データを用いて、機械学習の学習処理により、作成された学習モデルである。
【0073】
共通学習モデルは、例えば、1以上の各報告書に付されている1以上のJSPS共通コードと当該報告書に記載されている論文の書誌事項に対応する論文テキストとを有する教師データ、および当該報告書に付されている1以上のJSPS共通コードと当該報告書に記載されている特許の書誌事項に対応する特許テキストとを有する教師データを用いて、機械学習の学習処理により、作成された学習モデルである。
【0074】
さらに具体的には、処理部13または図示しない学習部は、1以上の各報告書ごとに、報告書に対応する1以上のJSPS共通コードを取得し、当該報告書の中の論文の書誌事項に対応する論文テキストを取得し、論文テキストから文書ベクトルを取得し、当該1以上のJSPS共通コードと当該文書ベクトルとを有する教師データを取得する。また、処理部13または図示しない学習部は、科学研究費助成事業の1以上の各報告書ごとに、報告書に対応する1以上のJSPS共通コードを取得し、当該報告書の中の特許の書誌事項(例えば、特許出願番号)に対応する特許テキストを取得し、当該特許テキストから文書ベクトルを取得し、当該1以上のJSPS共通コードと当該文書ベクトルとを有する教師データを取得する。次に、処理部13または図示しない学習部は、2以上の教師データを機械学習の学習モジュールに与え、当該学習モジュールを実行し、共通学習モデルを取得し、蓄積する。
(2)文書ベクトルの類似度を用いる場合
【0075】
共通分類部132は、例えば、第一種格納部111の1以上の各第一種テキストおよび第二種格納部112の1以上の各第二種テキストの各テキストごとに、テキストから文書ベクトルを取得する。次に、共通分類部132は、例えば、当該文書ベクトルとの類似度が最も大きい文書ベクトルを対応表から決定し、当該文書ベクトルと対になる1以上の共通コードを当該対応表から取得し、当該1以上の共通コードをテキストに付与しても良い。かかる場合、対応表は、文書ベクトルと1以上の共通コードとの組である2以上の対応情報を有する。
【0076】
テキスト群取得部133は、1以上の第一種テキストおよび1以上の第二種テキストから、所定の第二種コード及び共通コードを含む1以上の第一種テキストおよび1以上の第二種テキストを取得する。なお、ここでの所定の第二種コード及び共通コードの与え方は問わない。
【0077】
テキスト群取得部133は、通常、第一種格納部111の1以上の第一種テキストおよび第二種格納部112の1以上の第二種テキストから、同じ第二種コードおよび同じ共通コードを含む1以上の第一種テキストおよび1以上の第二種テキストを取得する。
【0078】
テキスト群取得部133は、例えば、一つの第二種コードと一つの共通コードの組を2組以上取得し、各組ごとに、各組の2つのコードが付与された1以上の第一種テキストおよび1以上の第二種テキストを取得する。かかる場合、2つのコードが付与された1以上の第一種テキストおよび1以上の第二種テキストは、2つの各コードが筆頭のコードとして付与されている1以上の第一種テキストおよび1以上の第二種テキストであることは好適である。
【0079】
テキスト群取得部133は、例えば、ユーザから与えられた1以上の第二種コードと1以上の共通コードの1以上の組を取得し、各組ごとに、各組に含まれる2以上のコードが付与された1以上の第一種テキストおよび1以上の第二種テキストを取得する。
【0080】
テキスト群取得部133は、同じ第二種コードと共通コードとの組を含む第一種テキストと第二種テキストとを取得すれば良く、その範囲は問わない。
【0081】
類似度計算部134は、テキスト群取得部133が取得した1以上の各第二種テキストとテキスト群取得部133が取得した1以上の各第一種テキストとの類似度を計算する。
【0082】
類似度計算部134は、テキスト群取得部133が取得した1以上の各第二種テキストごとに、第二種テキストとテキスト群取得部133が取得した1以上の各第一種テキストとの類似度を計算する。
【0083】
なお、第二種テキストと第一種テキストとの類似度を取得する場合、類似度計算部134は、例えば、当該第二種テキストから文書ベクトルを取得する。また、類似度計算部134は、例えば、当該第一種テキストから文書ベクトルを取得する。次に、類似度計算部134は、例えば、2つの文書ベクトルの類似度を算出する。なお、テキストから文書ベクトルを取得する技術、2つのベクトルの類似度を算出する技術は公知技術であるので、詳細な説明は省略する。
【0084】
付与部135は、テキスト群取得部133が取得した1以上の各第二種テキストに対して、類似度計算部134が計算した類似度を用いて、1以上の第一種テキストに付与されている1以上の第一種コードを付与する。
【0085】
付与部135は、例えば、テキスト群取得部133が取得した1以上の各第二種テキストに対して、類似度計算部134が計算した類似度が採用条件を満たす類似度に対応する1以上の第一種コードを付与する。
【0086】
第一種テキストが論文テキストであり、第二種テキストが特許テキストである場合、付与部135は、例えば、1以上の各特許テキストに対してJSTコードを付与する。
【0087】
採用条件とは、第二種テキストに付与する第一種コードを決定するための条件である。採用条件は、テキスト間の類似度に関する条件である。テキスト間の類似度に関する条件は、第一種コードの累積類似度に関する条件も含む。採用条件は、第二種テキストと第一種テキストとの間の類似度に関する条件である。採用条件は、例えば、第二種テキストと第一種テキストとの類似度が閾値以上または閾値より大きいことである。採用条件は、例えば、第二種テキストと2以上の各第一種テキストとの類似度の順位が閾値以上または閾値より高いことである。採用条件は、例えば、後述する累積類似度が閾値以上または閾値より大きい第一種コードであることである。採用条件は、例えば、後述する累積類似度の順位が閾値以上または閾値より高い第一種コードであることである。
【0088】
付与部135は、例えば、以下の(1)または(2)の方法により、第二種テキストに付与する第一種コードを決定する。
(1)累積類似度を用いる場合
【0089】
付与部135は、例えば、格納部11から採用条件を取得する。付与部135は、例えば、1以上の各第二種テキストに対して、類似度の順位が1位からM位(Mは自然数)までの第一種テキストの筆頭の第一種コード及び対応するM個の類似度を取得する。次に、付与部135は、例えば、1以上の各第二種テキストに対して、1または2以上の筆頭の各第一種コードごとに、各第一種コードの1以上の類似度の和である累積類似度を取得する。なお、一度しか出現しない第一種コードについて、付与部135は、一つの類似度を累積類似度とする。次に、付与部135は、例えば、1以上の各第二種テキストに対して、採用条件を満たす累積類似度に対応する1以上の第一種コードを、前記1以上の各第二種テキストに付与する。
(2)文書ベクトルの類似度を用いる場合
【0090】
付与部135は、例えば、格納部11から採用条件を取得する。付与部135は、例えば、テキスト群取得部133が取得した1以上の各第二種テキストごとに、採用条件を満たす類似度に対応する1以上の第一種テキストを決定する。次に、付与部135は、例えば、当該1以上の第一種テキストに付与されている1以上の第一種コードを取得する。次に、付与部135は、例えば、テキスト群取得部133が取得した1以上の各第二種テキストごとに、取得した1以上の第一種コードを付与する。
【0091】
出力部14は、各種の情報を出力する。各種の情報は、例えば、第一種コードが付与された第二種テキスト、第一テキストマップ、第二テキストマップである。
【0092】
第一テキストマップとは、第一種コード(例えば、JSTコード)を横軸または縦軸とし、第二種コード(例えば、IPCコード)を縦軸または横軸とするテキストマップであり、第一種コードと第二種コードとを付与された論文テキストと特許テキストとに対する二次元のマップである。
【0093】
第二テキストマップとは、第一種コード(例えば、JSTコード)、第二種コード(例えば、IPCコード)、および共通コード(JSPS共通コード)の3軸のテキストマップであり、第一種コードと第二種コードと共通コードとが付与された論文テキストと特許テキストとに対する三次元のマップである。
【0094】
ここで出力とは、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、音出力、外部の装置への送信、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念である。
【0095】
格納部11、第一種格納部111、および第二種格納部112は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0096】
格納部11等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部11等で記憶されるようになってもよく、通信回線等を介して送信された情報が格納部11等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部11等で記憶されるようになってもよい。
【0097】
受付部12は、タッチパネルやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
【0098】
処理部13、クロス分類部131、共通分類部132、テキスト群取得部133、類似度計算部134、および付与部135は、通常、プロセッサやメモリ等から実現され得る。処理部13等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。なお、プロセッサは、CPU、MPU、GPU等であり、その種類は問わない。
【0099】
出力部14は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。出力部14は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
【0100】
次に、逆クロス分類装置1の動作例について、図2のフローチャートを用いて説明する。
【0101】
(ステップS201)処理部13は、前処理開始のタイミングであるか否かを判断する。前処理開始のタイミングであればステップS202に行き、前処理開始のタイミングでなければステップS204に行く。
【0102】
なお、前処理開始のタイミングは、例えば、受付部12が前処理開始指示を受け付けた場合、予め決められた時刻になった場合である。
【0103】
(ステップS202)クロス分類部131は、クロス分類処理を行う。クロス分類処理の例について、図3のフローチャートを用いて説明する。
【0104】
なお、クロス分類処理とは、1以上の各第一種テキスト(例えば、論文テキスト)に1以上の第二種コード(例えば、IPCコード)を付与する処理である。
【0105】
(ステップS203)共通分類部132は、共通分類処理を行う。ステップS201に戻る。共通分類処理の例について、図4のフローチャートを用いて説明する。
【0106】
なお、共通分類処理とは、1以上の各テキスト(例えば、論文テキストと特許テキスト)に1以上の共通コード(例えば、JSPS共通コード)を付与する処理である。ここでの1以上のテキストは、1以上の第一種テキストおよび1以上の第二種テキストである。
【0107】
(ステップS204)処理部13は、本処理開始のタイミングであるか否かを判断する。本処理開始のタイミングであればステップS205に行き、本処理開始のタイミングでなければステップS214に行く。
【0108】
なお、本処理開始のタイミングは、例えば、受付部12が本理開始指示を受け付けた場合、予め決められた時刻になった場合、前処理が完了した場合である。つまり、逆クロス分類装置1は、前処理と本処理とを連続して行っても良い。
【0109】
(ステップS205)テキスト群取得部133は、カウンタiに1を代入する。
【0110】
(ステップS206)テキスト群取得部133は、i番目のコードセットが存在するか否かを判断する。i番目のコードセットが存在する場合はステップS207に行き、存在しない場合はステップS201に戻る。
【0111】
なお、コードセットとは、1または2以上の第二種コードと1または2以上の共通コードの組である。コードセットは、1つの第二種コードと1つの共通コードの組であることは好適である。コードセットの数は、例えば、第二種コードの数(X個)と共通コードの数(Y個)を乗算した数(X*Y)である。コードセットの数は、例えば、受け付けられた本理の開始の指示に含まれるコードセットの数である。
【0112】
つまり、i番目のコードセットは、例えば、1または2以上の第二種コードと1または2以上の共通コードの組み合わせの全ての中のi番目のコードセット、または受け付けられた本処理開始指示に含まれる1以上のコードセットの中のi番目のコードセットである。
【0113】
(ステップS207)テキスト群取得部133は、第一種格納部111からi番目のコードセットに含まれる1以上の第二種コードと1以上の共通コードとに対応付く1以上の第一種テキストを取得する。
【0114】
(ステップS208)テキスト群取得部133は、第二種格納部112からi番目のコードセットに含まれる1以上の第二種コードと1以上の共通コードとに対応付く1以上の第二種テキストを取得する。
【0115】
(ステップS209)類似度計算部134は、カウンタjに1を代入する。
【0116】
(ステップS210)類似度計算部134は、ステップS208で取得された1以上の第二種テキストの中で、j番目の第二種テキストが存在するか否かを判断する。j番目の第二種テキストが存在する場合はステップS211に行き、存在しない場合はステップS213に行く。
【0117】
(ステップS211)類似度計算部134等は、逆クロス分類処理を行う。逆クロス分類処理の例について、図5のフローチャートを用いて説明する。
【0118】
なお、逆クロス分類処理とは、1以上の各第二種テキストに1以上の第一種コードを付与する処理である。
【0119】
(ステップS212)類似度計算部134は、カウンタjを1、インクリメントする。ステップS210に戻る。
【0120】
(ステップS213)テキスト群取得部133は、カウンタiを1、インクリメントする。ステップS206に戻る。
【0121】
(ステップS214)受付部12は、マップ出力指示を受け付けたか否かを判断する。マップ出力指示を受け付けた場合はステップS215に行き、受け付けなかった場合はステップS201に戻る。
【0122】
(ステップS215)処理部13は、第一種格納部111から1以上の第一種テキストを取得する。
【0123】
(ステップS216)処理部13は、第二種格納部112から1以上の第二種テキストを取得する。
【0124】
(ステップS217)処理部13は、第一種コードおよび第二種コードを軸とする2次元または第一種コード、第二種コードおよび共通コードを軸とする3次元のマップであり、1以上の第一種テキストと1以上の第二種テキストとを、各テキストに付与されているコードを用いて分類するマップであるテキストマップを構成する。なお、テキストマップの種類は種々あり得、テキストマップを構成する技術は公知技術であるので、ここでの処理の詳細の説明は省略する。
【0125】
(ステップS218)出力部14は、ステップS217で構成されたテキストマップを出力する。ステップS201に戻る。
【0126】
なお、図2のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
【0127】
次に、ステップS202のクロス分類処理の例について、図3のフローチャートを用いて説明する。
【0128】
(ステップS301)クロス分類部131は、カウンタiに1を代入する。
【0129】
(ステップS302)クロス分類部131は、第一種格納部111に、i番目の第一種テキストが存在するか否かを判断する。i番目の第一種テキストが存在する場合はステップS303に行き、i番目の第一種テキストが存在しない場合は上位処理にリターンする。
【0130】
(ステップS303)クロス分類部131は、第一種格納部111からi番目の第一種テキストを取得する。
【0131】
(ステップS304)クロス分類部131は、格納部11から第一種学習モデルを取得する。
【0132】
(ステップS305)クロス分類部131は、第一種予測モジュールにi番目の第一種テキストと第一種学習モデルとを与え、当該第一種予測モジュールを実行する。そして、クロス分類部131は、第一種予測モジュールの実行結果である1以上の第二種コードを取得する。
【0133】
(ステップS306)クロス分類部131は、i番目の第一種テキストに、ステップS305で取得した1以上の第二種コードを付与する。
【0134】
(ステップS307)クロス分類部131は、カウンタiを1、インクリメントする。ステップS302に戻る。
【0135】
次に、ステップS203の共通分類処理の例について、図4のフローチャートを用いて説明する。
【0136】
(ステップS401)共通分類部132は、カウンタiに1を代入する。
【0137】
(ステップS402)共通分類部132は、格納部11に、i番目のテキストが存在するか否かを判断する。i番目のテキストが存在する場合はステップS403に行き、i番目のテキストが存在しない場合は上位処理にリターンする。なお、i番目のテキストは、第一種テキストまたは第二種テキストである。
【0138】
(ステップS403)共通分類部132は、格納部11からi番目のテキストを取得する。
【0139】
(ステップS404)共通分類部132は、格納部11から共通学習モデルを取得する。
【0140】
(ステップS405)共通分類部132は、格納部11の共通予測モジュールにi番目のテキストと共通学習モデルとを与え、当該共通予測モジュールを実行する。そして、共通分類部132は、共通予測モジュールの実行結果である1以上の共通コードを取得する。なお、共通予測モジュールは、第一種予測モジュールと同じでも良いし、異なっていても良い。
【0141】
(ステップS406)共通分類部132は、i番目のテキストに、ステップS405で取得した1以上の共通コードを付与する。
【0142】
(ステップS407)共通分類部132は、カウンタiを1、インクリメントする。ステップS402に戻る。
【0143】
次に、ステップS211の逆クロス分類処理の例について、図5のフローチャートを用いて説明する。
【0144】
(ステップS501)類似度計算部134は、ステップS210におけるj番目の第二種テキストを取得する。
【0145】
(ステップS502)類似度計算部134は、当該第二種テキストをベクトル化した情報である第二種ベクトルを取得する。第二種ベクトルは、文書ベクトルである。
【0146】
(ステップS503)類似度計算部134は、カウンタiに1を代入する。
【0147】
(ステップS504)類似度計算部134は、ステップS207で取得された第一種テキストのうち、i番目の第一種テキストが存在するか否かを判断する。i番目の第一種テキストが存在する場合はステップS505に行き、存在しない場合はステップS510に行く。
【0148】
(ステップS505)類似度計算部134は、i番目の第一種テキストを取得する。
【0149】
(ステップS506)類似度計算部134は、i番目の第一種テキストをベクトル化した情報である第一種ベクトルを取得する。第一種ベクトルは、文書ベクトルである。
【0150】
(ステップS507)類似度計算部134は、ステップS502で取得した第二種ベクトルと、ステップS506で取得した第一種ベクトルとの類似度を算出する。
【0151】
(ステップS508)類似度計算部134は、i番目の第一種テキストに対応付けて、ステップS507で取得した類似度を図示しないバッファに一時蓄積する。
【0152】
(ステップS509)類似度計算部134は、カウンタiを1、インクリメントする。ステップS504に戻る。
【0153】
(ステップS510)付与部135は、ステップS501で取得した第二種テキストに付与する1以上の第一種コードを決定する。かかるコード決定処理の例について、図6のフローチャートを用いて説明する。
【0154】
なお、コード決定処理において、1以上の第一種テキストに付与されている1以上の第一種コードの中から、類似度計算部134が計算した類似度を用いて、第二種テキストに付与する1以上の第一種コードを決定する。
【0155】
(ステップS511)付与部135は、ステップS510で決定した1以上の第一種コードをステップS501で取得した第二種テキストに付与する。上位処理にリターンする。
【0156】
次に、ステップS510のコード決定処理の例について、図6のフローチャートを用いて説明する。
【0157】
(ステップS601)付与部135は、初期化処理を行う。初期化処理は、すべての第一種コードの累積類似度に0を代入する処理である。また、初期化処理において、付与部135は、図示しないバッファの類似度をキーとして、第一種コードが付与されている第一種テキストをソートする。
【0158】
(ステップS602)付与部135は、カウンタiに1を代入する。
【0159】
(ステップS603)付与部135は、類似度が1位からM位までの第一種テキストの中で、i番目の第一種テキストが存在するか否かを判断する。i番目の第一種テキストが存在する場合はステップS604に行き、存在しない場合はステップS611に行く。なお、Mは自然数である。Mは、全ての第一種テキストの数でも良いが、全ての第一種テキストの数よりも小さい数(例えば、10)が好適である。
【0160】
(ステップS604)付与部135はi番目の第一種テキストに対応する類似度(S)を図示しないバッファから取得する。
【0161】
(ステップS605)付与部135は、i番目の第一種テキスト付与されている1または2以上の第一種コードを取得する。なお、ここで、付与部135は、筆頭の第一種コードのみを取得することは好適である。ただし、付与部135は、すべての第一種コードまたは上位N(ここでのNは2以上の自然数)の第一種コードを取得しても良い。
【0162】
(ステップS606)付与部135は、カウンタjに1を代入する。
【0163】
(ステップS607)付与部135は、ステップS605で取得した第一種コードの中で、j番目の第一種コードが存在するか否かを判断する。j番目の第一種コードが存在する場合はステップS608に行き、存在しない場合はステップS610に行く。
【0164】
(ステップS608)付与部135は、j番目の第一種コードの累積類似度に、類似度(S)を加算する。なお、j番目の第一種コードが筆頭ではない場合、当該第一種コードの累積類似度に加算する類似度は、類似度(S)より減じた値(例えば、「類似度(S)/第一種コードの順位」「類似度(S)-定数×第一種コードの順位」)でも良い。なお、定数は、例えば、「0.1」である。
【0165】
(ステップS609)付与部135は、カウンタjを1、インクリメントする。ステップS607に戻る。
【0166】
(ステップS610)付与部135は、カウンタiを1、インクリメントする。ステップS603に戻る。
【0167】
(ステップS611)付与部135は、格納部11から採用条件を取得する。なお、採用条件は、例えば、「累積類似度が最大」「累積類似度が上位M(ここでのMは1以上の自然数)であること」「累積類似度が閾値以上または閾値より大きいこと」である。
【0168】
(ステップS612)付与部135は、採用条件を満たす累積類似度に対応する1以上の第二種コードを取得する。上位処理にリターンする。
【0169】
以下、本実施の形態における逆クロス分類装置1の具体的な動作例について説明する。
【0170】
ここで、第一種テキストは論文テキストであり、第二種テキストは特許テキストであり、第一種コードはJSTコードであり、第二種コードはIPCコードであり、共通コードはJSPS共通コードである、とする。
【0171】
今、逆クロス分類装置1の第一種格納部111には、多数の論文テキストが格納されている。各論文テキストには、付与者によりJSTコードが付与されている。
【0172】
また、第二種格納部112には、多数の特許テキストが格納されている。各特許テキストには、付与者(通常、特許庁の担当者)によりIPCコードが付与されている。
【0173】
かかる状況において、逆クロス分類装置1のクロス分類部131は、第一種格納部111の各論文テキストに1以上のIPCコードを付与する。また、共通分類部132は、各論文テキストに1以上のJSPS共通コードを付与する。また、共通分類部132は、第二種格納部112の各特許テキストに1以上のJSPS共通コードを付与する。
【0174】
次に、テキスト群取得部133は、1以上の第一種テキストおよび1以上の第二種テキストから、第二種コード及び共通コードの組ごとに、同じ第二種コード及び共通コードを含む1以上の第一種テキストおよび1以上の第二種テキストを取得する。
【0175】
次に、類似度計算部134は、テキスト群取得部133が取得した1以上の各第二種テキストと、テキスト群取得部133が取得した1以上の各第一種テキストとの類似度を算出する。類似度計算部134が算出した論文テキストと特許テキストとの類似度を表現したイメージ図は、図7である。図7の1行目(701)は特許テキストのID(国際公開番号)であり、図7の1列目(702)は論文テキストのIDである。そして、図7の2行目および2列目以降の各セルは、セルに対応する特許テキストと論文テキストとの類似度を示した棒グラフである。ここでの類似度が最大「1.0」の場合、セルを埋め尽くす長さの棒グラフとなる。図7の特許テキスト(703)は、特許法第30条の新規性喪失の例外適用の対象となった特許テキストである。論文テキスト(704)は、特許テキスト(703)に対応する論文テキストであり、出願前に公表された論文テキストである。なお、論文テキスト(704)と特許テキスト(703)との類似度は、0.704である。
【0176】
また、図8は、上記の多数の論文テキストと多数の特許テキストとの類似度と件数のヒストグラムである。図7において、横軸が類似度であり、縦軸が件数である。横軸の類似度の最右の棒グラフ(801)の幅は、0.697~0.712である。つまり、図7の特許テキスト(703)と論文テキスト(704)との類似度は、図8のヒストグラムの最右の棒グラフ(801)に含まれる。
【0177】
次に、付与部135は、上述したアルゴリズムにより、類似度計算部134が計算した類似度を用いて、1以上の論文テキストに付与されている1以上のJSTコードを、テキスト群取得部133が取得した1以上の各特許テキストに対して付与する。
【0178】
以上の処理により、第一種格納部111の各論文テキストにも、第二種格納部112の各特許テキストにも、JSTコード、IPCコード、共通コードの3種類のコードが付与された。
【0179】
以上、本実施の形態によれば、第一種テキストに付加されている第一種コードを適切に第二種テキストに付与できる。その結果、第一種コードおよび第二種コードが付与された第一種テキストと第二種テキストとを提供できる。そのため、第一種テキストと第二種テキストとをシームレスに多面的に分析できる。
【0180】
また、本実施の形態によれば、類似度計算部134が、テキスト群取得部133が絞り込んで取得した1以上の第一種テキストと1以上の第二種テキストとの間の類似度のみを算出するので、すべての第一種テキストとすべての第二種テキストとの類似度を算出することと比較して、第一種コードを第二種テキストに付与する処理が非常に高速になる。
【0181】
また、本実施の形態によれば、付与者により付与された適切な第一種コードが付与された第一種テキスト、および付与者により付与された適切な第二種コードが付与された第一種テキストを用いて、適切な第一種コードおよび適切な第二種コードが付与された第一種テキストと第二種テキストとを容易に提供できる。
【0182】
また、本実施の形態によれば、第一種コード、第二種コード、および共通コードが付与された第一種テキストと第二種テキストとを提供できる。そのため、第一種テキストと第二種テキストとをシームレスにより多面的に分析できる。
【0183】
また、本実施の形態によれば、論文テキストに付加されているJSTコードを適切に特許テキストに付与できる。
【0184】
また、本実施の形態によれば、特許と論文とをシームレスに、JSTコードとIPCコードとを用いて分類できる。そのことにより、例えば、産学連携の促進に寄与できる。
【0185】
また、本実施の形態によれば、特許と論文とをシームレスに、JSTコードとIPCコードとJSPS共通コードを用いて分類できる。そのことにより、例えば、産学連携の促進により寄与できる。
【0186】
また、本実施の形態において、共通コードのコード個数は、第一種コードの個数よりも少ないことは好適である。その結果、共通コード1つ当たりのカバー範囲が広く、取り溢しが少なくなる。なお、共通コードのコード個数を、第?種コードのコード個数の10%以下にすること、即ち、コード1つあたりの付与範囲を10倍以上とすることが望ましい。また、コードが階層構造となっている場合は、共通コードの所定階層のコード個数が、第?のコードの所定階層のコード個数よりも?さくなるように、望ましくは10%以下にすればよい。
【0187】
また、本実施の形態における、1以上の各第二種テキストに対して、類似度が1位からM位(Mは自然数)までの第一種テキストの筆頭の第一種コード及び対応するM個の類似度を取得し、1または2以上の筆頭の各第一種コードごとに、各第一種コードの1以上の類似度の和である累積類似度を取得し、採用条件を満たす累積類似度に対応する1以上の第一種コードを、1以上の各第二種テキストに付与する構成により、ロバストな結果が得られる。
【0188】
さらに、本実施の形態によれば、30条適用の特許テキストと論文テキストとは際だって?い類似度となる必然性があるため、当該論文テキストと当該特許テキストをプログラムに与え、予想通りの極めて高い類似度が得られれば、プログラムの信頼性を確認できる。
【0189】
なお、本実施の形態の逆クロス分類装置1において、1以上の各第二種テキストが特許法第30条の新規性喪失の例外適用の対象となった特許出願の特許テキストであり、1以上の各第一種テキストが1以上の第二種テキストのうちのいずれかの特許テキストに対する特許出願前に公開された発明に対する論文テキストであり、付与部135は、1以上の各特許テキストに対してJSTコードを付与することは好適である。
【0190】
また、本実施の形態の逆クロス分類装置1にけるクロス分類部131と共通分類部132の処理は、他の装置が行い、逆クロス分類装置1は、その結果を取得できれば良い。かかる場合の逆クロス分類装置1は、1以上の第一種コードが付与されている1以上の各第一種テキストであり、1以上の各第一種テキストに対して第二種コードを付与するクロス分類部により1以上の第二種コードが付与され、1以上の各第一種テキストに対して共通コードを付与する共通分類部132により1以上の共通コードが付与された1以上の第一種テキストが格納される第一種格納部111と、1以上の第二種コードが付与されている1以上の第二種テキストであり、1以上の各第二種テキストに対して共通コードを付与する共通分類部により1以上の共通コードが付与された1以上の第二種テキストが格納される第二種格納部112と、1以上の第一種テキストおよび1以上の第二種テキストから、所定の第二種コード及び共通コードを含む1以上の第一種テキストおよび1以上の第二種テキストを取得するテキスト群取得部133と、テキスト群取得部133が取得した1以上の各第二種テキストとテキスト群取得部133が取得した1以上の各第一種テキストとの類似度を計算する類似度計算部134と、テキスト群取得部133が取得した1以上の各第二種テキストに対して、類似度計算部134が計算した類似度を用いて、1以上の第一種テキストに付与されている1以上の第一種コードを付与する付与部135とを具備する逆クロス分類装置1である。
【0191】
また、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD-ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における逆クロス分類装置1を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、1以上の第一種コードが付与されている1以上の各第一種テキストであり、当該1以上の各第一種テキストに対して第二種コードを付与するクロス分類部により1以上の第二種コードが付与され、当該1以上の各第一種テキストに対して共通コードを付与する共通分類部により1以上の共通コードが付与された1以上の第一種テキストが格納される第一種格納部と、1以上の第二種コードが付与されている1以上の第二種テキストであり、当該1以上の各第二種テキストに対して共通コードを付与する共通分類部により1以上の共通コードが付与された1以上の第二種テキストが格納される第二種格納部とにアクセス可能なコンピュータを、前記1以上の第一種テキストおよび前記1以上の第二種テキストから、所定の第二種コード及び共通コードを含む1以上の第一種テキストおよび1以上の第二種テキストを取得するテキスト群取得部と、前記テキスト群取得部が取得した1以上の各第二種テキストと前記テキスト群取得部が取得した1以上の各第一種テキストとの類似度を計算する類似度計算部と、前記テキスト群取得部が取得した1以上の各第二種テキストに対して、前記類似度計算部が計算した類似度を用いて、前記1以上の第一種テキストに付与されている1以上の第一種コードを付与する付与部として機能させるためのプログラムである。
【0192】
また、図9は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の逆クロス分類装置1等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図9は、このコンピュータシステム300の概観図であり、図10は、システム300のブロック図である。
【0193】
図9において、コンピュータシステム300は、CD-ROMドライブを含むコンピュータ301と、キーボード302と、マウス303と、モニタ304とを含む。
【0194】
図10において、コンピュータ301は、CD-ROMドライブ3012に加えて、MPU3013と、CD-ROMドライブ3012等に接続されたバス3014と、ブートアッププログラム等のプログラムを記憶するためのROM3015と、MPU3013に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM3016と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3017とを含む。ここでは、図示しないが、コンピュータ301は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
【0195】
コンピュータシステム300に、上述した実施の形態の逆クロス分類装置1等の機能を実行させるプログラムは、CD-ROM3101に記憶されて、CD-ROMドライブ3012に挿入され、さらにハードディスク3017に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ301に送信され、ハードディスク3017に記憶されても良い。プログラムは実行の際にRAM3016にロードされる。プログラムは、CD-ROM3101またはネットワークから直接、ロードされても良い。
【0196】
プログラムは、コンピュータ301に、上述した実施の形態の逆クロス分類装置1等の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム300がどのように動作するかは周知であり、詳細な説明は省略する。
【0197】
なお、上記プログラムにおいて、情報を送信するステップや、情報を受信するステップなどでは、ハードウェアによって行われる処理、例えば、送信ステップにおけるモデムやインターフェースカードなどで行われる処理(ハードウェアでしか行われない処理)は含まれない。
【0198】
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
【0199】
また、上記各実施の形態において、各処理は、単一の装置によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
【0200】
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
【産業上の利用可能性】
【0201】
以上のように、本発明にかかる逆クロス分類装置1は、第一種テキストに付加されている第一種コードを適切に第二種テキストに付与できるという効果を有し、逆クロス分類装置等として有用である。
【符号の説明】
【0202】
1 逆クロス分類装置
11 格納部
12 受付部
13 処理部
14 出力部
111 第一種格納部
112 第二種格納部
131 クロス分類部
132 共通分類部
133 テキスト群取得部
134 類似度計算部
135 付与部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10