特開2023-133738 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特開2023-133738コンテンツ分類システム、教師データの追加方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4A
4B
5
6A
6B
7
8
9
10A
10B

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023133738

(43)【公開日】2023-09-27

(54)【発明の名称】コンテンツ分類システム、教師データの追加方法、及びプログラム

(51)【国際特許分類】

G06Q 50/10 20120101AFI20230920BHJP

【ＦＩ】

G06Q50/10

【審査請求】未請求

【請求項の数】15

【出願形態】ＯＬ

(21)【出願番号】P 2022038892

(22)【出願日】2022-03-14

(71)【出願人】

【識別番号】000005108

【氏名又は名称】株式会社日立製作所

(74)【代理人】

【識別番号】110001678

【氏名又は名称】藤央弁理士法人

(72)【発明者】

【氏名】中川雄一郎

(72)【発明者】

【氏名】檜一平

(72)【発明者】

【氏名】川上雅子

(72)【発明者】

【氏名】野尻周平

【テーマコード（参考）】

5L049

【Ｆターム（参考）】

5L049CC11

(57)【要約】

【課題】文書の分類に使用する教師データを効率的かつ効果的に追加する。
【解決手段】コンテンツ分類システムは、複数の入力コンテンツを保持し、分類軸ごとに、分類軸への分類に使用する文書である教師データと、教師データに含まれ、かつ、分類において着目する着目キーワードと、を受け付ける処理と、教師データの数が閾値より少ない分類軸を追加対象分類軸として特定する処理と、追加対象分類軸の着目キーワードを含む文書を特定し、追加対象分類軸の教師データとして追加する処理と、追加対象分類軸の教師データに基づいて、複数の入力コンテンツの文書の中から追加対象分類軸に属する可能性がある候補文書を検索する処理と、追加対象分類軸の教師データに含まれるキーワード以外のキーワードを多く含む候補文書を特定する処理と、特定された候補文書を、追加対象分類軸の教師データとして追加する処理と、を実行する。
【選択図】図５

【特許請求の範囲】

【請求項1】

複数の分類軸のいずれかに、文書を含むコンテンツを分類するコンテンツ分類システムであって、
プロセッサ、及び前記プロセッサに接続されるメモリを有する計算機を少なくとも一つ含み、
複数の入力コンテンツを保持し、
前記少なくとも一つの計算機は、
前記分類軸ごとに、前記分類軸への分類に使用する文書である教師データと、前記教師データに含まれ、かつ、分類において着目する着目キーワードと、を受け付ける第１処理と、
前記教師データの数が閾値より少ない前記分類軸を追加対象分類軸として特定する第２処理と、
前記複数の入力コンテンツの前記文書の中から、前記追加対象分類軸の前記着目キーワードを含む文書を特定し、前記追加対象分類軸の前記教師データとして追加する第３処理と、
前記追加対象分類軸の前記教師データに基づいて、前記複数の入力コンテンツの前記文書の中から前記追加対象分類軸に属する可能性がある候補文書を検索する第４処理と、
前記追加対象分類軸の前記教師データに含まれるキーワード以外のキーワードを多く含む前記候補文書を特定する第５処理と、
特定された前記候補文書を、前記追加対象分類軸の前記教師データとして追加する第６処理と、を実行することを特徴とするコンテンツ分類システム。

【請求項2】

請求項１に記載のコンテンツ分類システムであって、
前記コンテンツは、当該コンテンツを特徴付ける特徴項目を含み、
前記第４処理では、前記少なくとも一つの計算機は、前記教師データ及び前記特徴項目に基づいて前記候補文書を検索することを特徴とするコンテンツ分類システム。

【請求項3】

請求項１に記載のコンテンツ分類システムであって、
前記分類軸を特定するデータと、前記分類軸に属するか否かを判定するための判定閾値とを対応づけを管理するための情報を保持し、
前記少なくとも一つの計算機は、前記第２処理の実行後、
前記分類軸の前記教師データ及び前記入力コンテンツの前記文書を用いて、前記入力コンテンツが前記分類軸に属する可能性を示す指標を算出し、当該分類軸の前記判定閾値及び前記指標に基づいて、当該入力コンテンツが当該分類軸に属するか否かを判定する第７の処理と、
いずれの前記分類軸にも分類されない前記入力コンテンツを除去する第８の処理と、を実行することを特徴とするコンテンツ分類システム。

【請求項4】

請求項３に記載のコンテンツ分類システムであって、
前記第８の処理では、前記少なくとも一つの計算機は、いずれの前記分類軸にも分類されない前記入力コンテンツの前記文書が、前記追加対象分類軸の前記教師データに含まれるキーワードを所定数以上含まない場合、当該入力コンテンツを除去しないように制御することを特徴とするコンテンツ分類システム。

【請求項5】

請求項３に記載のコンテンツ分類システムであって、
前記指標は、前記文書の特徴量を表すベクトル間の距離であって、
前記追加対象分類軸の前記判定閾値は、前記教師データの数が閾値より多い前記分類軸の前記判定閾値より十分大きい値が設定されることを特徴とするコンテンツ分類システム。

【請求項6】

複数の分類軸のいずれかに、文書を含むコンテンツを分類するコンテンツ分類システムが実行する教師データの追加方法であって、
前記コンテンツ分類システムは、
プロセッサ、及び前記プロセッサに接続されるメモリを有する計算機を少なくとも一つ含み、
複数の入力コンテンツを保持し、
前記教師データの追加方法は、
前記少なくとも一つの計算機が、前記分類軸ごとに、前記分類軸への分類に使用する文書である教師データと、前記教師データに含まれ、かつ、分類において着目する着目キーワードと、を受け付ける第１のステップと、
前記少なくとも一つの計算機が、前記教師データの数が閾値より少ない前記分類軸を追加対象分類軸として特定する第２のステップと、
前記少なくとも一つの計算機が、前記複数の入力コンテンツの前記文書の中から、前記追加対象分類軸の前記着目キーワードを含む文書を特定し、前記追加対象分類軸の前記教師データとして追加する第３のステップと、
前記少なくとも一つの計算機が、前記追加対象分類軸の前記教師データに基づいて、前記複数の入力コンテンツの前記文書の中から前記追加対象分類軸に属する可能性がある候補文書を検索する第４のステップと、
前記少なくとも一つの計算機が、前記追加対象分類軸の前記教師データに含まれるキーワード以外のキーワードを多く含む前記候補文書を特定する第５のステップと、
前記少なくとも一つの計算機が、特定された前記候補文書を、前記追加対象分類軸の前記教師データとして追加する第６のステップと、を含むことを特徴とする教師データの追加方法。

【請求項7】

請求項６に記載の教師データの追加方法であって、
前記コンテンツは、当該コンテンツを特徴付ける特徴項目を含み、
前記第４のステップは、前記少なくとも一つの計算機が、前記教師データ及び前記特徴項目に基づいて前記候補文書を検索するステップを含むことを特徴とする教師データの追加方法。

【請求項8】

請求項６に記載の教師データの追加方法であって、
前記コンテンツ分類システムは、前記分類軸を特定するデータと、前記分類軸に属するか否かを判定するための判定閾値とを対応づけを管理するための情報を保持し、
前記教師データの追加方法は、前記第２のステップの実行後に、
前記少なくとも一つの計算機が、前記分類軸の前記教師データ及び前記入力コンテンツの前記文書を用いて、前記入力コンテンツが前記分類軸に属する可能性を示す指標を算出し、当該分類軸の前記判定閾値及び前記指標に基づいて、当該入力コンテンツが当該分類軸に属するか否かを判定する第７のステップと、
前記少なくとも一つの計算機が、いずれの前記分類軸にも分類されない前記入力コンテンツを除去する第８のステップと、を含むことを特徴とする教師データの追加方法。

【請求項9】

請求項８に記載の教師データの追加方法であって、
前記第８のステップは、前記少なくとも一つの計算機が、いずれの前記分類軸にも分類されない前記入力コンテンツの前記文書が、前記追加対象分類軸の前記教師データに含まれるキーワードを所定数以上含まない場合、当該入力コンテンツを除去しないように制御するステップを含むことを特徴とする教師データの追加方法。

【請求項10】

請求項８に記載の教師データの追加方法であって、
前記指標は、前記文書の特徴量を表すベクトル間の距離であって、
前記追加対象分類軸の前記判定閾値は、前記教師データの数が閾値より多い前記分類軸の前記判定閾値より十分大きい値が設定されることを特徴とする教師データの追加方法。

【請求項11】

複数の分類軸のいずれかに、文書を含むコンテンツを分類する計算機に実行させるためのプログラムであって、
前記計算機は、複数の入力コンテンツを保持し、
前記プログラムは、
前記分類軸ごとに、前記分類軸への分類に使用する文書である教師データと、前記教師データに含まれ、かつ、分類において着目する着目キーワードと、を受け付ける第１の手順と、
前記教師データの数が閾値より少ない前記分類軸を追加対象分類軸として特定する第２の手順と、
前記複数の入力コンテンツの前記文書の中から、前記追加対象分類軸の前記着目キーワードを含む文書を特定し、前記追加対象分類軸の前記教師データとして追加する第３の手順と、
前記追加対象分類軸の前記教師データに基づいて、前記複数の入力コンテンツの前記文書の中から前記追加対象分類軸に属する可能性がある候補文書を検索する第４の手順と、
前記追加対象分類軸の前記教師データに含まれるキーワード以外のキーワードを多く含む前記候補文書を特定する第５の手順と、
特定された前記候補文書を、前記追加対象分類軸の前記教師データとして追加する第６の手順と、を前記計算機に実行させることを特徴とするプログラム。

【請求項12】

請求項１１に記載のプログラムであって、
前記コンテンツは、当該コンテンツを特徴付ける特徴項目を含み、
前記第４の手順は、前記教師データ及び前記特徴項目に基づいて前記候補文書を検索させる手順を含むことを特徴とするプログラム。

【請求項13】

請求項１１に記載のプログラムであって、
前記計算機は、前記分類軸を特定するデータと、前記分類軸に属するか否かを判定するための判定閾値とを対応づけを管理するための情報を保持し、
前記プログラムは、前記第２の手順の実行後に、
前記分類軸の前記教師データ及び前記入力コンテンツの前記文書を用いて、前記入力コンテンツが前記分類軸に属する可能性を示す指標を算出し、当該分類軸の前記判定閾値及び前記指標に基づいて、当該入力コンテンツが当該分類軸に属するか否かを判定する第７の手順と、
いずれの前記分類軸にも分類されない前記入力コンテンツを除去する第８の手順と、を実行させることを特徴とするプログラム。

【請求項14】

請求項１３に記載のプログラムであって、
前記第８の手順は、いずれの前記分類軸にも分類されない前記入力コンテンツの前記文書が、前記追加対象分類軸の前記教師データに含まれるキーワードを所定数以上含まない場合、当該入力コンテンツを除去しないように制御させる手順を含むことを特徴とするプログラム。

【請求項15】

請求項１３に記載のプログラムであって、
前記指標は、前記文書の特徴量を表すベクトル間の距離であって、
前記追加対象分類軸の前記判定閾値は、前記教師データの数が閾値より多い前記分類軸の前記判定閾値より十分大きい値が設定されることを特徴とするプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、文書の分類技術に関する。

【背景技術】

【0002】

企業が新しい事業やサービスを検討する際に、特許情報分析等、様々な情報を基に文書を分類し、自他社の事業動向やサービスを客観的に把握するために用いられることがある。文書の分類で使われる方法として、特許文献１、２がある。

【0003】

特許文献１には、予め分類された教師データに対して形態素解析を行い、教師データとして分類された文書において使用されている単語を抽出することが記載されている。

【0004】

また、特許文献２には、文書間を語句ベクトルを用いた類似度に基づいて文書を分類することが記載されている。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】特開２０１０－０２６９２３号公報

【特許文献2】特開平０８－２６３５１４号公報

【発明の概要】

【発明が解決しようとする課題】

【0006】

これら特許文献１、２に記載の技術を用いれば、例えば１０００件の文献について、分類軸Ａ、Ｂ、Ｃごとに一定数以上（例えば各分類軸１００件×３分類軸＝３００件）の教師データを人手で準備すれば、残りの７００件は自動的に分類することができる。つまり、人手で分類する工数を、１０００件全てを人手で分類する工数に比して、教師データ３００件のみに抑えることが可能となり得る。

【0007】

しかし上記例で言えば、実際の分類作業を行う場合、最初の教師データ３００件については人手にて作業をすることとなるが、この際、当該３００件は無作為に抽出されているため、Ａ～Ｃそれぞれに１００件ずつ分類されるわけではなく、例えば「分類軸Ａ：２００件、分類軸Ｂ：８０件、分類軸Ｃ：２０件」といったように、教師データの数にばらつきが生じる。そのため、特許文献１、２の構成のみでは、教師データの多い分類軸Ａと教師データの少ない分類軸Ｃとの間で、残りの文献の分類精度に大きな差が生じ、分類軸Ａに比して分類軸Ｃの分類精度は著しく低くなる可能性がある。

【0008】

さらに、ここで注意したいのは、新しい事業及びサービスの創生を議論することを目的に文献を分類する場合、例えば、特許文献を分類して特許情報の分析データを作成する場合、単に各社の事業動向や技術動向を「見える化」しただけでは左記の目的は達成されない点である。作成した分析データを用いて、例えば分類軸Ｃに該当するような特許件数が極端に少ない分類軸の情報をさらに考察して他社が未注力でホワイトスペースとなっているような事業課題を把握したり自社及び他社のサービスの優位性等を客観的に検討することができて初めて上記目的は達成される。

【0009】

すなわち、上記目的達成のためには、該当する文献数の少ない分類軸Ｃのような分類軸に該当する文献こそ、分類軸Ａと同等かそれ以上の精度で取得しなければ上記目的は達成することができないところ、従来技術では教師データが少ない分類軸ほど文献の分類精度が低いことが課題であった。

【課題を解決するための手段】

【0010】

本願において開示される発明の代表的な一例を示せば以下の通りである。すなわち、複数の分類軸のいずれかに、文書を含むコンテンツを分類するコンテンツ分類システムであって、プロセッサ、及び前記プロセッサに接続されるメモリを有する計算機を少なくとも一つ含み、複数の入力コンテンツを保持し、前記少なくとも一つの計算機は、前記分類軸ごとに、前記分類軸への分類に使用する文書である教師データと、前記教師データに含まれ、かつ、分類において着目する着目キーワードと、を受け付ける第１処理と、前記教師データの数が閾値より少ない前記分類軸を追加対象分類軸として特定する第２処理と、前記複数の入力コンテンツの前記文書の中から、前記追加対象分類軸の前記着目キーワードを含む文書を特定し、前記追加対象分類軸の前記教師データとして追加する第３処理と、前記追加対象分類軸の前記教師データに基づいて、前記複数の入力コンテンツの前記文書の中から前記追加対象分類軸に属する可能性がある候補文書を検索する第４処理と、前記追加対象分類軸の前記教師データに含まれるキーワード以外のキーワードを多く含む前記候補文書を特定する第５処理と、特定された前記候補文書を、前記追加対象分類軸の前記教師データとして追加する第６処理と、を実行する。

【発明の効果】

【0011】

本発明によれば、新しい事業及びサービスの創生を議論するために特に重要となる文献の情報を高い精度にて取得することが可能となる。上記した以外の課題、構成及び効果は、以下の実施例の説明により明らかにされる。

【図面の簡単な説明】

【0012】

【図1】実施例１の分類システムの構成例を示す図である。

【図2】実施例１の分類システムを構成する計算機の構成例を示す図である。

【図3】実施例１のコンテンツ情報のデータ構造の一例を示す図である。

【図4A】実施例１の制御情報のデータ構造の一例を示す図である。

【図4B】実施例１の制御情報のデータ構造の一例を示す図である。

【図5】実施例１の分類システムの処理の概要を説明するフローチャートである。

【図6A】実施例１の分類システムが提示する画面の一例を示す図である。

【図6B】実施例１の分類システムが提示する画面の一例を示す図である。

【図7】実施例１の分類システムが実行する教師データ設定処理の一例を説明するフローチャートである。

【図8】実施例１の分類システムが提示する画面の一例を示す図である。

【図9】実施例１の分類システムが実行する教師データ追加処理の一例を説明するフローチャートである。

【図10A】実施例２の分類システムの処理の概要を説明するフローチャートである。

【図10B】実施例２の分類システムの処理の概要を説明するフローチャートである。

【発明を実施するための形態】

【0013】

以下、本発明の実施例を、図面を用いて説明する。ただし、本発明は以下に示す実施例の記載内容に限定して解釈されるものではない。本発明の思想ないし趣旨から逸脱しない範囲で、その具体的構成を変更し得ることは当業者であれば容易に理解される。以下に説明する発明の構成において、同一又は類似する構成又は機能には同一の符号を付し、重複する説明は省略する。本明細書等における「第１」、「第２」、「第３」等の表記は、構成要素を識別するために付するものであり、必ずしも、数又は順序を限定するものではない。

【実施例0014】

図１は、実施例１の分類システムの構成例を示す図である。図２は、実施例１の分類システムを構成する計算機の構成例を示す図である。

【0015】

分類システム１００は、少なくとも一つの計算機２００から構成される。計算機２００は、プロセッサ２０１、主記憶装置２０２、副記憶装置２０３、及びネットワークインタフェース２０４を有する。なお、計算機２００は、入力装置及び出力装置を有してもよい。

【0016】

プロセッサ２０１は、主記憶装置２０２に格納されるプログラムを実行する。プロセッサ２０１がプログラムにしたがって処理を実行することによって、特定の機能を実現する機能部（モジュール）として動作する。以下の説明では、機能部を主語に処理を説明する場合、プロセッサ２０１が当該機能部を実現するプログラムを実行していることを示す。主記憶装置２０２は、メモリ等であり、プロセッサ２０１が実行するプログラム及びプログラムが使用するデータを格納する。副記憶装置２０３は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）及びＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等であり、データを永続的に格納する。主記憶装置２０２に格納されるプログラム及びデータは、副記憶装置２０３に格納されてもよい。この場合、プロセッサ２０１が副記憶装置２０３からプログラム及びデータを読み出し、主記憶装置２０２にロードする。ネットワークインタフェース２０４は、ネットワークを介して他の装置と通信する。

【0017】

分類システム１００は、分類対象のコンテンツ及び各分類軸の教師データの入力を受け付け、教師データに基づいてコンテンツを分類する。また、分類システム１００は、分類軸の教師データの追加及びノイズとなるコンテンツの除去を行う。ノイズとなるコンテンツの除去については実施例２で説明する。

【0018】

ここで、コンテンツは分類に使用する文書を含むコンテンツである。例えば、特許文献、論文、及びマニュアル等である。コンテンツが論文である場合、アブストラクト等が分類に使用する文書として指定可能である。また、コンテンツが特許文献である場合、要約書等が分類に使用する文書として指定可能である。文書の特定の箇所の指定の仕方は、一部、複数箇所、文書全体等、目的等に応じてユーザが決めればよい。本発明は、様々なコンテンツの分類に適用することができる。

【0019】

分類システム１００は、機能部として、入出力部１１０、教師データ抽出部１１１、教師データ追加部１１２、ノイズコンテンツ抽出部１１３、及び分類部１１４を有する。また、分類システム１００は、コンテンツ情報１２０及び制御情報１２１を保持する。

【0020】

コンテンツ情報１２０は、コンテンツを管理するための情報である。コンテンツ情報１２０の詳細は図３を用いて説明する。制御情報１２１は、分類システム１００の各種処理を制御するための情報である。制御情報１２１の詳細は図４Ａ及び図４Ｂを用いて説明する。

【0021】

入出力部１１０は、外部からの入力及び外部への出力を制御する。教師データ抽出部１１１は、教師データとなりうる文書を抽出する。教師データ追加部１１２は、特定の条件を満たす分類軸の教師データの追加を制御する。ノイズコンテンツ抽出部１１３は、いずれの分類軸にも属しない、ノイズとなるコンテンツを抽出する。分類部１１４は、各分類軸の教師データを用いてコンテンツの分類を行う。例えば、分類部１１４は分類軸に属する確率、又は、文書間の類似度に基づいて分類を行う。

【0022】

なお、分類システム１００が有する各機能部については、複数の機能部を一つの機能部にまとめてもよいし、一つの機能部を機能毎に複数の機能部に分けてもよい。

【0023】

図３は、実施例１のコンテンツ情報１２０のデータ構造の一例を示す図である。

【0024】

コンテンツ情報１２０は、コンテンツ３０１、ステータス３０２、分類軸（設定）３０３、キーワード３０４、及び分類軸（結果）３０５を含むエントリを格納する。一つのエントリが一つのコンテンツに対応する。なお、エントリに含まれるフィールドは前述したものに限定されない。前述したフィールドのいずれかを含まなくてもよいし、また、他のフィールドを含んでもよい。

【0025】

コンテンツ３０１は、コンテンツを格納するフィールドである。コンテンツ３０１には、コンテンツそのものが格納されてもよいし、コンテンツの格納場所を示すパスが格納されてもよい。

【0026】

ステータス３０２は、コンテンツの文書のステータスを示す値を格納するフィールドである。本実施例では、教師データであることを示す「１」、教師データの候補であることを示す「２」、及び教師データとして選択されていないことを示す「０」のいずれかが格納される。

【0027】

分類軸（設定）３０３は、教師データが属する分類軸を格納するフィールドである。教師データである文書を含むコンテンツ以外のエントリの分類軸（設定）３０３は空欄である。キーワード３０４は、教師データとして分類軸を決定するときに着目したキーワードを格納するフィールドである。教師データである文書を含むコンテンツ以外のエントリのキーワード３０４は空欄である。

【0028】

分類軸（結果）３０５は、分類部１１４による分類の結果を格納するフィールドである。分類部１１４による分類が実行されていないコンテンツの分類軸（結果）３０５は空欄である。

【0029】

図４Ａ及び図４Ｂは、実施例１の制御情報１２１のデータ構造の一例を示す図である。

【0030】

制御情報１２１には、テーブル４００及びテーブル４１０が含まれる。テーブル４００は、各種処理で使用する閾値を管理するためのテーブルである。テーブル４１０は、文書間の類否判定の条件を管理するための情報である。

【0031】

テーブル４００は、閾値種別４０１及び閾値４０２を含むエントリを格納する。一つのエントリが一つの閾値に対応する。なお、エントリに含まれるフィールドは前述したものに限定されない。前述したフィールドのいずれかを含まなくてもよいし、また、他のフィールドを含んでもよい。

【0032】

閾値種別４０１は、閾値の種別に関する情報を格納するフィールドである。閾値４０２は、閾値を格納するフィールドである。

【0033】

閾値種別４０１が「抽出（１回目）」及び「抽出（２回目）」であるエントリには、母集団コンテンツから抽出する教師データの数が設定される。以下の説明では「抽出（１回目）」及び「抽出（２回目）」であるエントリに設定された閾値を閾値「Ａ」及び閾値「Ｂ」と記載する。閾値種別４０１が「追加対象分類軸」であるエントリには、教師データの数が少ない分類軸を特定するための教師データの数が格納される。以下の説明では、「追加対象分類軸」であるエントリに設定された閾値を閾値「Ｃ」と記載する。閾値種別４０１が「ノイズコンテンツ除去」であるエントリには、ノイズとなるコンテンツを除去の要否を判定するための、未分類の教師データの数が格納される。以下の説明では、閾値種別４０１が「ノイズコンテンツ除去」であるエントリに設定された閾値を閾値「Ｄ」と記載する。閾値種別４０１が「キーワード数（追加）」であるエントリには、教師データを特定するために用いるキーワード数が格納される。以下の説明では、閾値種別４０１が「キーワード数（追加）」であるエントリに設定された閾値を閾値「Ｇ」と記載する。閾値種別４０１が「キーワード数（ノイズ）」であるエントリには、ノイズコンテンツとして扱わないコンテンツを特定するために用いるキーワード数が格納される。以下の説明では、閾値種別４０１が「キーワード数（ノイズ）」であるエントリに設定された閾値を閾値「Ｈ」と記載する。

【0034】

テーブル４１０は、条件４１１及び閾値４１２を含むエントリを格納する。条件及び閾値の組合せに対して一つのエントリが存在する。

【0035】

条件４１１は、閾値を適用する分類軸を指定するための条件を格納するフィールドである。閾値４１２は、分類軸に属するコンテンツを抽出するために用いる閾値を格納するフィールドである。

【0036】

図５は、実施例１の分類システム１００の処理の概要を説明するフローチャートである。図６Ａ及び図６Ｂは、実施例１の分類システム１００が提示する画面の一例を示す図である。

【0037】

分類システム１００は、開始指示を受け付けた場合、以下で説明する処理を実行する。なお、処理の実行タイミングはこれに限定されない。

【0038】

分類システム１００の入出力部１１０は、コンテンツ母集団（コンテンツ群）及び制御情報１２１の入力を受け付ける（ステップＳ１０１）。例えば、入出力部１１０は、図６Ａに示すような画面６００を提示してコンテンツ母集団の入力を受け付け、図６Ｂに示すような画面６１０を提示して制御情報１２１の入力を受け付ける。なお、文書間の類似度を用いてコンテンツを分類する場合、教師データの数が少ない分類軸の類似度の閾値は、教師データの数が多い分類軸の類似度の閾値より大きく設定される。これによって、教師データの数が少ない分類軸に属する可能性があるコンテンツがノイズとして除去されないように制御できる。

【0039】

画面６００は、一つ以上のコンテンツを格納するファイルのパスを入力する欄及び登録ボタンを含む。画面６１０は、閾値及び条件等を入力する欄を含む。

【0040】

次に、分類システム１００は、教師データ設定処理を実行する（ステップＳ１０２）。教師データ設定処理の詳細は図７を用いて説明する。

【0041】

次に、分類システム１００は、教師データの数が少ない分類軸が存在するか否かを判定する（ステップＳ１０３）。具体的には、分類システム１００の教師データ抽出部１１１が、教師データの数が閾値「Ｃ」より小さい分類軸が存在するか否かを判定する。以下の説明では、教師データの数が閾値「Ｃ」より小さい分類軸を「追加対象分類軸」とも記載する。

【0042】

追加対象分類軸が存在しないと判定された場合、分類システム１００の分類部１１４は、各分類軸の教師データを用いてコンテンツを分類する（ステップＳ１０５）。その後、分類システム１００は処理を終了する。

【0043】

具体的には、分類部１１４は、教師データを用いて、コンテンツが各分類軸に属するか否か判定するための指標を算出する。

【0044】

例えば、分類部１１４は、一つの分類軸の教師データを用いて、当該分類軸に属する確率を算出する分類器を生成し、当該分類器を用いてコンテンツを分類する方法が考えられる。また、分類部１１４は、各分類軸の教師データを用いて、各分類軸に属する確率を算出する分類器を生成し、当該分類器を用いてコンテンツを分類する。

【0045】

例えば、分類部１１４は、特許文献２に記載の文書間の類似度に基づいて文書を分類してもよい。分類システム１００は、分類軸の教師データと、コンテンツの文書との間の類似度を算出し、類似度及び閾値の比較結果に基づいてコンテンツが分類軸に属するか否かを判定する。

【0046】

なお、前述の指標の算出方法は一例であってこれに限定されない。

【0047】

分類部１１４は、画面を介して分類の結果を提示してもよいし、分類結果を格納するファイルを出力してもよい。

【0048】

追加対象分類軸が存在すると判定された場合、分類システム１００は、教師データ追加処理を実行し（ステップＳ１０４）、その後、ステップＳ１０５に進む。教師データ追加処理の詳細は図９を用いて説明する。

【0049】

図７は、実施例１の分類システム１００が実行する教師データ設定処理の一例を説明するフローチャートである。図８は、実施例１の分類システム１００が提示する画面の一例を示す図である。

【0050】

教師データ抽出部１１１は、コンテンツ情報１２０に登録されているコンテンツの中から閾値「Ａ」だけ分類対象コンテンツをランダムに抽出する（ステップＳ２０１）。

【0051】

入出力部１１０は、ユーザに対して、分類対象コンテンツの分類を依頼する画面を提示する（ステップＳ２０２）。例えば、入出力部１１０は、図８に示すような画面を提示する。画面８００には、コンテンツ情報１２０が表示されている。分類対象コンテンツのエントリが強調表示されてもよい。また、分類対象コンテンツのエントリのみが表示されてもよい。ユーザは、画面８００を介して、分類対象コンテンツが属する分類軸及び着目したキーワード等を入力する。

【0052】

入出力部１１０は、ユーザが入力した情報に基づいてコンテンツ情報１２０を更新する（ステップＳ２０３）。

【0053】

具体的には、入出力部１１０は、分類対象コンテンツに対応するエントリのステータス３０２に「１」を設定し、分類軸（設定）３０３にユーザが入力した分類軸を設定し、キーワード３０４にユーザが入力したキーワードを設定する。

【0054】

教師データ抽出部１１１は、コンテンツ情報１２０に登録されているコンテンツの中から閾値「Ｂ」だけ分類対象コンテンツを抽出する（ステップＳ２０４）。ここでは、（ルール１）及び（ルール２）の少なくともいずれかを満たす文書を含むコンテンツが抽出される。
（ルール１）分類軸のキーワードを含む文書は除外する。
（ルール２）分類軸のキーワード以外のキーワードを多く含む文書を優先的に抽出する。なお、キーワードは品詞を限定してもよい。

【0055】

入出力部１１０は、ユーザに対して、分類対象コンテンツの分類を依頼する画面を提示する（ステップＳ２０５）。また、入出力部１１０は、ユーザが入力した情報に基づいてコンテンツ情報１２０を更新する（ステップＳ２０６）。ステップＳ２０５及びステップＳ２０６の処理はステップＳ２０２及びステップＳ２０３の処理と同様である。

【0056】

なお、ステップＳ２０４からステップＳ２０６の処理は実行しなくてもよい。なお、ステップＳ１０１では閾値「Ａ」及び閾値「Ｂ」のみを設定し、教師データ設定処理が終了した後に条件及び閾値の組合せを受け付けるようにしてもよい。この場合、ノイズコンテンツを判定するための設定としては、分類軸及び文書間類似度の閾値の組合せを設定する方法が考えられる。

【0057】

図９は、実施例１の分類システム１００が実行する教師データ追加処理の一例を説明するフローチャートである。

【0058】

教師データ追加部１１２は、分類されていないコンテンツの文書の中から、追加対象分類軸のキーワードを含む文書を検索する（ステップＳ３０１）。ここで、追加対象分類軸のキーワードは、追加対象分類軸の教師データである文書を含むコンテンツに対応するエントリのキーワード３０４に格納されるキーワードである。

【0059】

教師データ追加部１１２は、検索された文書を、追加対象分類軸の教師データとして登録する（ステップＳ３０２）。

【0060】

具体的には、教師データ追加部１１２は、コンテンツ情報１２０の検索されたコンテンツのエントリを以下のように更新する。教師データ追加部１１２は、ステータス３０２に「１」を設定し、分類軸（設定）３０３に追加対象分類軸を設定し、キーワード３０４に追加対象分類軸のキーワードを設定する。

【0061】

教師データ追加部１１２は、分類されていないコンテンツの文書の中から、候補文書を検索する（ステップＳ３０３）。具体的には、以下のような処理が実行される。

【0062】

（Ｓ３０３－１）教師データ追加部１１２は、分類部１１４に追加対象分類軸に関する分類を指示する。分類部１１４は、追加対象分類軸の教師データを用いて、分類されていないコンテンツを分類し、分類結果を教師データ追加部１１２に出力する。

【0063】

なお、追加対象分類軸に属するコンテンツの分類において、コンテンツに含まれる一部の情報（例えば、メタデータ）を用いてもよい。コンテンツが特許文献の場合、教師データと、出願人及び発明者等の特徴項目とに基づいて特許文献を分類する方法が考えられる。また、コンテンツに含まれる一部の情報のみを用いて分類が行われてもよい。出願人及び発明者等の特徴項目が同じ特許文献は、同じ分類軸に属する可能性が高いためである。

【0064】

（Ｓ３０３－２）教師データ追加部１１２は、追加対象分類軸として分類されたコンテンツの文書に含まれるキーワードを抽出する。このとき、キーワードは品詞を限定してもよい。教師データ追加部１１２は、抽出されたキーワードから、追加対象分類軸の教師データであるコンテンツの文書に含まれるキーワードを除外する。教師データ追加部１１２は、残ったキーワードの数が閾値「Ｇ」より大きい文書を候補文書に決定する。このとき、教師データ追加部１１２は、候補文書を含むコンテンツのエントリを以下のように更新する。教師データ追加部１１２は、ステータス３０２に「２」を設定し、分類軸（設定）３０３に追加対象分類軸を設定する。

【0065】

なお、追加対象分類軸として分類された文書が複数存在する場合、各文書に対してＳ３０３－２の処理が実行される。以上がステップＳ３０３の処理の説明である。

【0066】

教師データ追加部１１２は、入出力部１１０を介して、ユーザに候補文書を含むコンテンツの分類を依頼する画面を提示する（ステップＳ３０４）。ステップＳ３０４の処理はステップＳ２０２の処理と同様の処理である。

【0067】

教師データ追加部１１２は、ユーザが入力した情報に基づいてコンテンツ情報１２０を更新する（ステップＳ３０５）。ステップＳ３０５の処理はステップＳ２０３の処理と同様の処理である。

【0068】

なお、教師データ追加部１１２は、ユーザへの分類の依頼を行わず、候補文書を教師データとして登録してもよい。この場合、キーワード３０４には、追加対象分類軸のキーワードを除くキーワードを設定する方法が考えられる。

【0069】

このように、追加対象分類軸のキーワードに含まれないキーワードを含む文書を教師データとして追加することによって、分類の精度を効率的に向上させることができる。

【0070】

実施例１によれば、教師データが少ない分類軸について、効率的かつ効果的に教師データを追加することができる。特に、現在登録されているキーワード以外のキーワードを含む教師データを追加することによって、分類漏れを低減できるため、分類の精度を向上させることができる。

【実施例0071】

上述したように、新しい事業及びサービスの創生を議論することを目的に文献を分類する場合、例えば分類軸Ａ～Ｃのうち、該当する文献数の少ない分類軸Ｃに該当する文献こそ、分類軸Ａと同等かそれ以上の精度で取得しなければ上記目的は達成することができない。ここで、文献の母集団によっては、分類軸Ａ～Ｃのいずれにも該当しない、所謂「ノイズ」データの方が、分類軸Ａ～Ｃに該当する文献数よりも明らかに多い場合がある。この場合、例えば１０００件の母集団のうち、教師データ作りのために人手で分類した３００件のほとんどがノイズである場合等は、人による工数の手間は勿論のこと、残りの７００件もほとんどがノイズである可能性が統計的に高いため、分類軸Ａ～Ｃにノイズデータが多く分類されてしまい分類精度が下がってしまうことが課題となる。実施例２では、当該課題を解決するべく、ノイズデータを積極的に排除して分類精度や人的コストを改善する一例について説明する。

【0072】

実施例２の分類システム１００は、入力されたコンテンツ母集団の中からいずれの分類軸にも属しないコンテンツをノイズとして除去する。教師データを追加する場合に、いずれの分類軸にも属しないコンテンツを予め除去することによって、分類軸の教師データの数のばらつきを抑制し、また、教師データの選択のコストを削減できる。

【0073】

教師データを用いてコンテンツを分類し、いずれの分類軸にも属しないコンテンツを除去する方法が考えられる。しかし、当該方法を用いた場合、追加対象分類軸は教師データが少ないため類似判定の精度が低く、追加対象分類軸に分類すべき文書を含むコンテンツを削除してしまう可能性がある。

【0074】

実施例２では、前述のような問題点を考慮したノイズコンテンツの除去方法を説明する。実施例２の分類システム１００の構成及びデータの構成は、実施例１と同一であるため説明は省略する。

【0075】

図１０Ａ及び図１０Ｂは、実施例２の分類システム１００の処理の概要を説明するフローチャートである。

【0076】

ステップＳ４０１及びステップＳ４０２の処理は、ステップＳ１０１及びステップＳ１０２の処理と同一である。なお、ステップＳ２０３及びステップＳ２０６では、入出力部１１０は、分類対象コンテンツのうち、いずれの分類軸にも属さないコンテンツの数をカウントする。

【0077】

分類システム１００は、いずれの分類軸にも属さない分類対象コンテンツの数が多い否かを判定する（ステップＳ４０３）。

【0078】

具体的には、分類システム１００は、いずれの分類軸にも属さない分類対象コンテンツの数が閾値「Ｄ」より大きいか否かを判定する。閾値としては全体の何パーセントかといった情報を用いることができる。

【0079】

いずれの分類軸にも属さない分類対象コンテンツの数が少ない場合、分類システム１００はステップＳ４０４に進む。ステップＳ４０４からステップＳ４０６の処理は、ステップＳ１０３からステップＳ１０５の処理と同様である。

【0080】

いずれの分類軸にも属さない分類対象コンテンツの数が多い場合、分類システム１００は、未分類のコンテンツの中からノイズコンテンツを特定する（ステップＳ４０７）。具体的には、以下のような処理が実行される。

【0081】

（Ｓ４０７－１）ノイズコンテンツ抽出部１１３は分類軸を選択する。

【0082】

（Ｓ４０７－２）ノイズコンテンツ抽出部１１３は、未分類のコンテンツの中から一つのコンテンツを選択する。

【0083】

（Ｓ４０７－３）ノイズコンテンツ抽出部１１３は、分類部１１４にコンテンツの分類を指示する。分類部１１４は、選択したコンテンツが選択した分類軸に属するか否かを判定するための指標を算出し、ノイズコンテンツ抽出部１１３に出力する。指標は、例えば、確率値又は文書間の距離（類似度）等である。ここでは、類似度を扱うものとする。

【0084】

なお、分類軸の教師データが複数存在する場合、各教師データに対する類似度が算出される。この場合、ノイズコンテンツ抽出部１１３は、最も大きい類似度を、選択した分類軸に対する選択したコンテンツの類似度に決定する。

【0085】

（Ｓ４０７－４）ノイズコンテンツ抽出部１１３は、未分類の全てのコンテンツについて処理が完了したか否かを判定する。未分類の全てのコンテンツについて処理が完了していない場合、ノイズコンテンツ抽出部１１３は、Ｓ４０７－２に戻り、同様の処理を実行する。

【0086】

（Ｓ４０７－５）ノイズコンテンツ抽出部１１３は、全ての分類軸について処理が完了したか否かを判定する。全ての分類軸について処理が完了していない場合、ノイズコンテンツ抽出部１１３は、Ｓ４０７－１に戻り、同様の処理を実行する。

【0087】

（Ｓ４０７－６）全ての分類軸について処理が完了した場合、ノイズコンテンツ抽出部１１３は、未分類のコンテンツの中から一つのコンテンツを選択する。

【0088】

（Ｓ４０７－７）ノイズコンテンツ抽出部１１３は、選択したコンテンツの各分類軸の類似度に基づいて、コンテンツが属する分類軸を決定する。選択したコンテンツがいずれの分類軸にも属さない場合、ノイズコンテンツ抽出部１１３は、当該コンテンツをノイズコンテンツとしてノイズコンテンツリストに登録する。

【0089】

具体的には、ノイズコンテンツ抽出部１１３は、分類軸の教師データの数に基づいて、テーブル４１０から類似閾値を取得し、類似閾値と類似度とを比較することによって分類軸に属するか否かを判定する。例えば、ノイズコンテンツ抽出部１１３は、類似度が類似閾値より大きい分類軸を、当該コンテンツが属する分類軸に決定する。類似度が類似閾値より大きい分類軸が複数存在する場合、ノイズコンテンツ抽出部１１３は、類似度が最も大きい分類軸を、当該コンテンツが属する分類軸に決定する。

【0090】

（Ｓ４０７－８）ノイズコンテンツ抽出部１１３は、未分類の全てのコンテンツについて処理が完了したか否かを判定する。未分類の全てのコンテンツについて処理が完了していない場合、ノイズコンテンツ抽出部１１３は、Ｓ４０７－６に戻り、同様の処理を実行する。未分類の全てのコンテンツについて処理が完了した場合、ノイズコンテンツ抽出部１１３は、ステップＳ４０７の処理を終了する。以上が、ステップＳ４０７の処理の説明である。

【0091】

分類システム１００は、追加対象分類軸が存在するか否かを判定する（ステップＳ４０８）。ステップＳ４０８の処理はステップＳ１０３の処理と同様の処理である。

【0092】

追加対象分類軸が存在しない場合、分類システム１００はステップＳ４１０に進む。

【0093】

追加対象分類軸が存在する場合、分類システム１００は、ステップＳ４０７において特定されたノイズコンテンツ群の中から、追加対象分類軸に分類される可能性があるノイズコンテンツを取り除き（ステップＳ４０９）、その後、ステップＳ４１０に進む。具体的には、以下のような処理が実行される。

【0094】

（Ｓ４０９－１）ノイズコンテンツ抽出部１１３は、追加対象分類軸の教師データに含まれるキーワードを抽出する。ノイズコンテンツ抽出部１１３は、キーワードリストを生成する。

【0095】

（Ｓ４０９－２）ノイズコンテンツ抽出部１１３は、各分類軸の教師データに含まれるキーワードを抽出し、全ての分類軸で共通するキーワードを特定する。

【0096】

（Ｓ４０９－３）ノイズコンテンツ抽出部１１３は、キーワードリストからＳ４０９－２で抽出されたキーワードを削除する。

【0097】

（Ｓ４０９－４）ノイズコンテンツ抽出部１１３は、ノイズコンテンツリストからノイズコンテンツを一つ選択する。

【0098】

（Ｓ４０９－５）ノイズコンテンツ抽出部１１３は、ノイズコンテンツの文書に含まれるキーワードとキーワードリストに登録されているキーワードに基づいて、ノイズコンテンツが追加対象分類軸に分類される可能性があるか否かを判定する。例えば、ノイズコンテンツが含む文書が（条件１）及び（条件２）のいずれか一方を満たすか否かが判定される。（条件１）及び（条件２）のいずれか一方を満たす場合、ノイズコンテンツは追加対象分類軸に分類される可能性があると判定される。
（条件１）ノイズコンテンツの文書がキーワードリストに登録されているキーワードを全く含まない。
（条件２）ノイズコンテンツの文書に含まれる、キーワードリストに登録されているキーワードの数が閾値より小さい。

【0099】

ノイズコンテンツが追加対象分類軸に分類される可能性がない場合、ノイズコンテンツ抽出部１１３はＳ４０９－７に進む。

【0100】

（Ｓ４０９－６）ノイズコンテンツが追加対象分類軸に分類される可能性がある場合、ノイズコンテンツ抽出部１１３は、ノイズコンテンツリストから当該コンテンツを削除し、その後、Ｓ４０９－７に進む。

【0101】

（Ｓ４０９－７）ノイズコンテンツ抽出部１１３は、ノイズコンテンツリストの全てのノイズコンテンツについて処理が完了したか否かを判定する。ノイズコンテンツリストの全てのノイズコンテンツについて処理が完了していない場合、ノイズコンテンツ抽出部１１３は、Ｓ４０９－４に戻り、同様の処理を実行する。ノイズコンテンツリストの全てのノイズコンテンツについて処理が完了した場合、ノイズコンテンツ抽出部１１３はステップＳ４０９の処理を終了する。以上がステップＳ４０９の処理の説明である。

【0102】

ステップＳ４１０では、分類システム１００のノイズコンテンツ抽出部１１３は、ノイズコンテンツリストに基づいてコンテンツ母集合からノイズコンテンツを除去し（ステップＳ４１０）、その後、ステップＳ４０４に進む。

【0103】

具体的には、ノイズコンテンツ抽出部１１３は、ノイズコンテンツに対応するエントリの分類軸（設定）３０３にノイズであることを示す値を設定する。ステップＳ１０４及びステップＳ１０５ではノイズコンテンツは処理対象コンテンツして扱われない。

【0104】

実施例２によれば、追加対象分類軸に分類される可能性があるコンテンツを残し、ノイズとなるコンテンツを削除することができる。これによって、分類の精度を向上させることができ、追加対象分類軸に分類されるコンテンツの漏れを削減できる。

【0105】

なお、本発明は上記した実施例に限定されるものではなく、様々な変形例が含まれる。また、例えば、上記した実施例は本発明を分かりやすく説明するために構成を詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、各実施例の構成の一部について、他の構成に追加、削除、置換することが可能である。

【0106】

また、上記の各構成、機能、処理部、処理手段等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、本発明は、実施例の機能を実現するソフトウェアのプログラムコードによっても実現できる。この場合、プログラムコードを記録した記憶媒体をコンピュータに提供し、そのコンピュータが備えるプロセッサが記憶媒体に格納されたプログラムコードを読み出す。この場合、記憶媒体から読み出されたプログラムコード自体が前述した実施例の機能を実現することになり、そのプログラムコード自体、及びそれを記憶した記憶媒体は本発明を構成することになる。このようなプログラムコードを供給するための記憶媒体としては、例えば、フレキシブルディスク、ＣＤ－ＲＯＭ、ＤＶＤ－ＲＯＭ、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、光ディスク、光磁気ディスク、ＣＤ－Ｒ、磁気テープ、不揮発性のメモリカード、ＲＯＭなどが用いられる。

【0107】

また、本実施例に記載の機能を実現するプログラムコードは、例えば、アセンブラ、Ｃ／Ｃ＋＋、ｐｅｒｌ、Ｓｈｅｌｌ、ＰＨＰ、Ｐｙｔｈｏｎ、Ｊａｖａ（登録商標）等の広範囲のプログラム又はスクリプト言語で実装できる。

【0108】

さらに、実施例の機能を実現するソフトウェアのプログラムコードを、ネットワークを介して配信することによって、それをコンピュータのハードディスクやメモリ等の記憶手段又はＣＤ－ＲＷ、ＣＤ－Ｒ等の記憶媒体に格納し、コンピュータが備えるプロセッサが当該記憶手段や当該記憶媒体に格納されたプログラムコードを読み出して実行するようにしてもよい。

【0109】

上述の実施例において、制御線や情報線は、説明上必要と考えられるものを示しており、製品上必ずしも全ての制御線や情報線を示しているとは限らない。全ての構成が相互に接続されていてもよい。

IP Force 特許公報掲載プロジェクト 2022.1.31 β版