IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特開2023-153715分類付与支援装置、分類付与支援システム
<>
  • 特開-分類付与支援装置、分類付与支援システム 図1
  • 特開-分類付与支援装置、分類付与支援システム 図2
  • 特開-分類付与支援装置、分類付与支援システム 図3
  • 特開-分類付与支援装置、分類付与支援システム 図4
  • 特開-分類付与支援装置、分類付与支援システム 図5
  • 特開-分類付与支援装置、分類付与支援システム 図6
  • 特開-分類付与支援装置、分類付与支援システム 図7
  • 特開-分類付与支援装置、分類付与支援システム 図8
  • 特開-分類付与支援装置、分類付与支援システム 図9
  • 特開-分類付与支援装置、分類付与支援システム 図10
  • 特開-分類付与支援装置、分類付与支援システム 図11
  • 特開-分類付与支援装置、分類付与支援システム 図12
  • 特開-分類付与支援装置、分類付与支援システム 図13
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023153715
(43)【公開日】2023-10-18
(54)【発明の名称】分類付与支援装置、分類付与支援システム
(51)【国際特許分類】
   G06F 16/332 20190101AFI20231011BHJP
   G06F 16/36 20190101ALI20231011BHJP
【FI】
G06F16/332
G06F16/36
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2022063166
(22)【出願日】2022-04-05
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110001689
【氏名又は名称】青稜弁理士法人
(72)【発明者】
【氏名】間瀬 久雄
(72)【発明者】
【氏名】今一 修
(72)【発明者】
【氏名】横手 健一
(72)【発明者】
【氏名】岡本 光一
(72)【発明者】
【氏名】吉田 遼
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA01
5B175GB04
(57)【要約】
【課題】
分類の付与範囲を論理検索式として定式化する作業効率を向上させる。
【解決手段】
分類付与支援装置は、特定の分類が付与された文書集合1と、当該分類が付与されていない文書集合2を入力として、当該文書集合1および文書集合2を構成する文書テキストの中から、文書集合1を構成する文書にできるだけ多くヒットし、かつ、文書集合2を構成する文書にできるだけ少なくヒットするキーワード候補を抽出する。文書集合1を構成する文書数に対する当該キーワード候補を含む文書数またはその割合(再現率)と、文書集合2を構成する文書数に対する当該キーワード候補を含む文書数または前記文書数に関する割合(適合率)と、前記2種類の割合の調和平均(F値)のうちの少なくとも一つ以上とともに抽出したキーワード候補を出力する。また、利用者により選択されたキーワード候補を組み合わせて検索式を生成する。
【選択図】 図1
【特許請求の範囲】
【請求項1】
処理装置を備え、
前記処理装置は、
特定の分類が付与された文書集合1と、当該分類が付与されていない文書集合2を入力として、当該文書集合1および文書集合2を構成する文書テキストの中から、文書集合1を構成する文書にできるだけ多くヒットし、かつ、文書集合2を構成する文書にできるだけ少なくヒットするキーワード候補を抽出し、
前記文書集合1を構成する文書数に対する当該キーワード候補を含む文書数またはその割合と、前記文書集合2を構成する文書数に対する当該キーワード候補を含む文書数または前記文書集合1を構成する文章数に対する当該キーワード候補を含む文章数と前記文書集合2を構成する文章数に対する当該キーワード候補を含む文章数の割合と、前記2種類の割合の調和平均のうちの少なくとも一つ以上とともに前記抽出したキーワード候補を出力装置に出力し、
入力装置を用いて利用者によって選択されたキーワード候補を組み合わせて検索式を生成する、
ことを特徴とする分類付与支援装置。
【請求項2】
請求項1に記載の分類付与支援装置であって、
前記処理装置は、
前記利用者によって選択されたキーワード候補に対する類義語候補を抽出し、
前記文書集合1を構成する文書数に対する当該類義語候補を含む文書数またはその割合と、前記文書集合2を構成する文書数に対する当該類義語候補を含む文書数または前記文書集合1を構成する文章数に対する当該類義語候補を含む文章数と前記文書集合2を構成する文章数に対する当該類義語候補を含む文章数の割合と、前記2種類の割合の調和平均のうちの少なくとも一つ以上とともに前記抽出した類義語候補を前記出力装置に出力し、
前記入力装置を用いて利用者によって選択された類義語候補を組み合わせて検索式を生成する、
ことを特徴とする分類付与支援装置。
【請求項3】
請求項1に記載の分類付与支援装置であって、
前記処理装置は、
前記利用者によって選択されたキーワード候補に対する関連語候補を抽出し、
前記文書集合1を構成する文書数に対する当該関連語候補を含む文書数またはその割合と、前記文書集合2を構成する文書数に対する当該関連語候補を含む文書数または前記文書集合1を構成する文章数に対する当該関連語候補を含む文章数と前記文書集合2を構成する文章数に対する当該関連語候補を含む文章数の割合と、前記2種類の割合の調和平均のうちの少なくとも一つ以上とともに前記抽出した関連語候補を前記出力装置に出力し、
前記入力装置を用いて利用者によって選択された関連語候補を組み合わせて検索式を生成する、
ことを特徴とする分類付与支援装置。
【請求項4】
請求項1に記載の分類付与支援装置であって、
前記処理装置は、
前記利用者によって選択されたキーワード候補を包含し、検索結果としてヒットさせることが不適切であるノイズキーワード候補を特定し、
特定されたノイズキーワード候補を前記出力装置に出力し、
前記入力装置を用いて利用者によって選択されたノイズキーワード候補を組み合わせて検索式を生成する、
ことを特徴とする分類付与支援装置。
【請求項5】
請求項2に記載の分類付与支援装置であって、
前記処理装置は、
前記利用者によって選択された類義語候補を包含し、検索結果としてヒットさせることが不適切であるノイズキーワード候補を特定し、
特定されたノイズキーワード候補を前記出力装置に出力し、
前記入力装置を用いて利用者によって選択されたノイズキーワード候補を組み合わせて検索式を生成する、
ことを特徴とする分類付与支援装置。
【請求項6】
請求項3に記載の分類付与支援装置であって、
前記処理装置は、
前記利用者によって選択された関連語候補を包含し、検索結果としてヒットさせることが不適切であるノイズキーワード候補を特定し、
特定されたノイズキーワード候補を前記出力装置に出力し、
前記入力装置を用いて利用者によって選択されたノイズキーワード候補を組み合わせて検索式を生成する、
ことを特徴とする分類付与支援装置。
【請求項7】
請求項1に記載の分類付与支援装置であって、
前記処理装置は、
前記キーワード候補を利用者に提示する際に、前記文書集合1を構成する文書数に対する当該キーワード候補を含む文書数またはその割合と、前記文書集合2を構成する文書数に対する当該キーワード候補を含む文書数または前記文書集合1を構成する文章数に対する当該キーワード候補を含む文章数と前記文書集合2を構成する文章数に対する当該キーワード候補を含む文章数の割合と、前記の2種類の割合の調和平均のいずれかの大小に応じて前記キーワード候補をソートして前記出力装置に出力する、
ことを特徴とする分類付与支援装置。
【請求項8】
請求項1に記載の分類付与支援装置であって、
前記処理装置は、
前記利用者がキーワード候補を用いて検索式を更新するたびに、前記文書集合1を構成する文書数に対する当該検索式にヒットする文書数またはその割合と、前記文書集合2を構成する文書数に対する当該検索式にヒットする文書数または前記文書集合1を構成する文書数に対する当該検索式にヒットする文書数と前記文書集合2を構成する文章数に対する当該検索式にヒットする文書数の割合を算出し、その結果を前記出力装置に出力する、
ことを特徴とする分類付与支援装置。
【請求項9】
請求項2に記載の分類付与支援装置であって、
前記処理装置は、
前記利用者がキーワード候補あるいは類義語候補を用いて検索式を更新するたびに、前記文書集合1を構成する文書数に対する当該検索式にヒットする文書数またはその割合と、前記文書集合2を構成する文書数に対する当該検索式にヒットする文書数または前記文書集合1を構成する文書数に対する当該検索式にヒットする文書数と前記文書集合2を構成する文章数に対する当該検索式にヒットする文書数の割合を算出し、その結果を前記出力装置に出力する、
ことを特徴とする分類付与支援装置。
【請求項10】
請求項3に記載の分類付与支援装置であって、
前記処理装置は、
前記利用者がキーワード候補あるいは関連語候補を用いて検索式を更新するたびに、前記文書集合1を構成する文書数に対する当該検索式にヒットする文書数またはその割合と、前記文書集合2を構成する文書数に対する当該検索式にヒットする文書数または前記文書集合1を構成する文書数に対する当該検索式にヒットする文書数と前記文書集合2を構成する文章数に対する当該検索式にヒットする文書数の割合を算出し、その結果を前記出力装置に出力する、
ことを特徴とする分類付与支援装置。
【請求項11】
請求項4に記載の分類付与支援装置であって、
前記処理装置は、
前記利用者がキーワード候補あるいはノイズキーワード候補を用いて検索式を更新するたびに、前記文書集合1を構成する文書数に対する当該検索式にヒットする文書数またはその割合と、前記文書集合2を構成する文書数に対する当該検索式にヒットする文書数または前記文書集合1を構成する文書数に対する当該検索式にヒットする文書数と前記文書集合2を構成する文章数に対する当該検索式にヒットする文書数の割合を算出し、その結果を前記出力装置に出力する、
ことを特徴とする分類付与支援装置。
【請求項12】
請求項1に記載の分類付与支援装置であって、
前記処理装置は、
文章中の単語の出現頻度の閾値に基づいて、前記キーワード候補を含む文章を特定する、
ことを特徴とする分類付与支援装置。
【請求項13】
請求項2に記載の分類付与支援装置であって、
前記処理装置は、
前記類義語候補を抽出する際に、過去の文書検索で使用された検索式履歴、既存の類義語辞書、単語ベクトル間の類似度に基づいて機械学習により生成される類義語辞書のうち、少なくとも一つ以上を参照する、
ことを特徴とする分類付与支援装置。
【請求項14】
請求項1に記載の分類付与支援装置であって、
前記処理装置は、
前記利用者が確定させた検索式でヒットする前記文書集合1の文書を除外し、残った前記文書集合1を対象として、前記キーワード候補の抽出を行い、抽出した前記キーワード候補を前記出力装置に出力する、
ことを特徴とする分類付与支援装置。
【請求項15】
処理装置と、
記憶装置と、
出力装置と、
入力装置と、
を備え、
前記処理装置は、
前記記憶装置に記憶されたキーワード候補抽出部を用いて、
特定の分類が付与された文書集合1と、当該分類が付与されていない文書集合2を入力として、当該文書集合1および文書集合2を構成する文書テキストの中から、文書集合1を構成する文書にできるだけ多くヒットし、かつ、文書集合2を構成する文書にできるだけ少なくヒットするキーワード候補を抽出し、
前記記憶装置に記憶された画面生成・表示部を用いて、
前記文書集合1を構成する文書数に対する当該キーワード候補を含む文書数またはその割合と、前記文書集合2を構成する文書数に対する当該キーワード候補を含む文書数または前記文書集合1を構成する文章数に対する当該キーワード候補を含む文章数と前記文書集合2を構成する文章数に対する当該キーワード候補を含む文章数の割合と、前記2種類の割合の調和平均のうちの少なくとも一つ以上とともに前記抽出したキーワード候補を前記出力装置に出力し、
前記記憶装置に記憶された検索式データ管理部を用いて、
前記入力装置を用いて利用者によって選択されたキーワード候補を組み合わせて検索式を生成する、
ことを特徴とする分類付与支援システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、分類付与支援装置、および、分類付与支援システムに関する。
【背景技術】
【0002】
近年、インターネット等を介して、大量の文書に容易にアクセスできる環境が出来上がっている。所望の文書を収集したい場合には、文書検索システムにアクセスして、検索キーワードや予め文書に付与された分類を検索条件として指定することによって、所望の文書を絞り込むことができる。特に、文書の形式や内容に応じた分類を予め文書に付与しておくことにより、所望の文書を特定する作業の効率を大幅に向上できる。
【0003】
しかし、大量の文書に予め適切な分類を付与しておくことは容易ではない。一般に、文書の内容を人間が読解し、適切な分類を過不足なく付与する作業には多大なコストがかかる。近年の自然言語処理および機械学習技術の発展により、計算機によって文書に分類を自動付与することも可能になり、こうしたコストの経済的な改善を見込めるが、その付与精度はまだまだ十分に高いとは言えない。
【0004】
分類付与の作業コストが高い原因の一つとして、文書の内容を読解する作業に時間がかかることが挙げられる。一般に分類を付与するためには、文書を読んでその内容を十分に理解する必要があるが、特許のように何十ページにもわたる長文章を読解するには多大な時間と労力を必要とする。
【0005】
分類付与の作業コストが高い原因の他の一つとして、分類の境界が曖昧であることが挙げられる。図書の分類(日本十進分類(NDC))や特許の分類(IPC、FI、Fターム等)などの分類体系においては、個々の分類の範囲がある程度規定されているが、厳密な形では規定されていないため、人によって分類付与結果が異なることがしばしばある。また、計算機によって分類を自動付与する場合においても、文書の意味内容を理解できていないため、分類の境界付近に位置する文書への分類付与精度が低くなる傾向がある。
【0006】
上記2点の原因を排除して分類付与作業を効率的に行う手法として、個々の分類の範囲をルールとして定義(定式化)することが挙げられる。例えば、「文書中に「翻訳装置」という単語が出現したら、この文書に「機械翻訳」という分類を付与する」といったルールである。分類ごとにこのルールを何らかの形で定式化できれば、新規文書に対して当該分類を付与すべきか否かを、このルールを満たすか否かに応じて瞬時にかつ容易に機械判定できる。
【0007】
しかし、元々の分類の範囲が厳密に定義されていないため、分類ごとにこのルールを定式化することは容易ではない。「分類付与結果を文書検索の絞り込みに活用する」という用途を踏まえると、このルールは、「当該分類が付与されている文書を漏れなく包含でき、かつ、当該分類が付与されていない文書を極力除外できる」ルールである必要があるが、このルールを人間が想起することは容易ではなく、また、一定以上の精度(漏れ・ノイズが一定以下)を満たすルールは、非常に複雑な構成・内容になると考えられる。したがって、分類ごとこのルールを人間が低コストで策定するための機械支援が必要となる。
【0008】
関連すると考えられる先行技術の一つとして、非特許文献1がある。ここでは、特定の文書集合のみを過不足なく検索できる検索式を自動生成する方法について言及している。しかし、本方法は検索式が自動で生成されるため、人間の意図する検索式が出力されないことがしばしばある。
【0009】
また、関連すると考えられる先行技術の他の一つとして、特許文献1がある。特許文献1は、分類別の分類ルールを生成した学習用文書自体に分類を付与し、誤って分類が付与された文書を選別して、分類ルールの追加または重み変更を行って分類ルールの改良処理を行い、自動分類付与処理の精度を改善する技術を開示する。
【先行技術文献】
【特許文献】
【0010】
【特許文献1】特開2002-202984号公報
【非特許文献】
【0011】
【非特許文献1】岩山真:「文書集合からのブール検索式自動生成」、言語処理学会第18回年次大会発表論文集、P1336-P1339、2012/3
【発明の概要】
【発明が解決しようとする課題】
【0012】
上述したように、大量の文書から所望の文書を効率よく収集するためには、文書に予め分類を付与しておくことが有効であり、文書に予め分類を付与する作業コストを低減するためには、個々の分類の範囲を定式化することが有効であるが、個々の分類の範囲を定式化する作業を効率化するためには、分類の定式化作業を機械支援することが課題である。
【0013】
そこで、本発明は、上記定式化作業を機械支援する装置等を提供することを目的とする。なお、本発明では、以下の2点を前提としている。
(1)個々の分類の範囲を、キーワードがAND/OR/NOT等の論理演算子で結合された論理検索式
(以下、「分類検索式」と呼ぶことがある)で定式化する。
(2)付与対象となる分類は定義済であり、分類を付与すべきか否かが判定済の文書が存在する。
すなわち、本発明は、分類が付与された文書と付与されなかった文書が存在する既存の文書に対して、当該分類が付与された文書のみを過不足なく検索できる論理検索式(分類検索式)を人間が作成する作業を支援して作業コストを低減させる装置等を提供することを目的としている。
【課題を解決するための手段】
【0014】
本発明の第1の態様によれば、下記の分類付与支援装置が提供される。分類付与支援装置は、処理装置を備える。処理装置は、特定の分類が付与された文書集合1と、当該分類が付与されていない文書集合2を入力として、当該文書集合1および文書集合2を構成する文書テキストの中から、文書集合1を構成する文書にできるだけ多くヒットし、かつ、文書集合2を構成する文書にできるだけ少なくヒットするキーワード候補を抽出する。処理装置は、文書集合1を構成する文書数に対する当該キーワード候補を含む文書数またはその割合と、文書集合2を構成する文書数に対する当該キーワード候補を含む文書数または文書集合1を構成する文章数に対する当該キーワード候補を含む文章数と文書集合2を構成する文章数に対する当該キーワード候補を含む文章数の割合と、前記2種類の割合の調和平均のうちの少なくとも一つ以上とともに前記抽出したキーワード候補を出力装置に出力する。処理装置は、入力装置を用いて利用者によって選択されたキーワード候補を組み合わせて検索式を生成する。
【0015】
本発明の第2の態様によれば、下記の分類付与支援システムが提供される。分類付与支援システムは、処理装置と、記憶装置と、出力装置と、入力装置と、を備える。処理装置は、記憶装置に記憶されたキーワード候補抽出部を用いて、特定の分類が付与された文書集合1と、当該分類が付与されていない文書集合2を入力として、当該文書集合1および文書集合2を構成する文書テキストの中から、文書集合1を構成する文書にできるだけ多くヒットし、かつ、文書集合2を構成する文書にできるだけ少なくヒットするキーワード候補を抽出する。処理装置は、記憶装置に記憶された画面生成・表示部を用いて、文書集合1を構成する文書数に対する当該キーワード候補を含む文書数またはその割合と、文書集合2を構成する文書数に対する当該キーワード候補を含む文書数または文書集合1を構成する文章数に対する当該キーワード候補を含む文章数と文書集合2を構成する文章数に対する当該キーワード候補を含む文章数の割合と、前記2種類の割合の調和平均のうちの少なくとも一つ以上とともに前記抽出したキーワード候補を出力装置に出力する。処理装置は、記憶装置に記憶された検索式データ管理部を用いて、入力装置を用いて利用者によって選択されたキーワード候補を組み合わせて検索式を生成する。
【発明の効果】
【0016】
本発明によれば、分類が付与された文書と付与されなかった文書が存在する既存の文書に対して、当該分類が付与された文書のみを過不足なく検索できる論理検索式(分類検索式)を人間が作成する作業を支援して作業コストを低減させる装置等が提供される。
【図面の簡単な説明】
【0017】
図1】本発明を適用した分類付与支援システムのブロック図の一例を示す図
図2】本発明を適用した文書作業支援システムのハードウェア構成の一例を示す図
図3】本発明を適用した文書作業支援システムを使用した作業手順の概要の一例を示す図
図4】本発明を適用した文書作業支援システムの表示画面(対象分類および分類付与文書集合の指定)の一例を示す図
図5】本発明を適用した文書作業支援システムの表示画面(キーワード候補の提示)の一例を示す図
図6】本発明を適用した文書作業支援システムの表示画面(キーワード候補の類義語の提示)の一例を示す図
図7】本発明を適用した文書作業支援システムの表示画面(キーワード候補の類義語の提示)の一例を示す図
図8】本発明を適用した文書作業支援システムの表示画面(キーワード候補の関連語の提示)の一例を示す図
図9】本発明を適用した文書作業支援システムの表示画面(キーワード候補の関連語の提示)の一例を示す図
図10】本発明を適用した文書作業支援システムの表示画面(NOT語の提示)の一例を示す図
図11】本発明を適用した文書作業支援システムの表示画面(NOT語の提示)の一例を示す図
図12】本発明を適用した文書作業支援システムの表示画面(次のキーワード候補の登録)の一例を示す図
図13】本発明を適用した文書作業支援システムのキーワード候補を特定する処理の一例を示す図
【発明を実施するための形態】
【0018】
本発明は大量の文書に分類を付与する作業を支援する技術に関し、ここでは、本発明の実施形態の一例(実施形態)として、既存の特許分類を対象として、当該特許分類が付与された特許に関する文章を過不足なく検索できる論理検索式を作成する作業を支援する分類付与支援システムについて述べる。
【0019】
本実施形態では、作業対象とする特許分類として、「機械翻訳」に該当する既存Fターム(テーマ)である5B091を採り上げるが、当該分類が付与された文書集合および当該分類が付与されなかった文書集合が存在する分類であれば、他のFタームでも良いし、FI、IPCといった他の特許分類体系でも良いし、特許以外の分類でも良いし、特許以外の文書(論文、Webページ等)を対象文書としても良い。
【0020】
本システムは、分類5B091が付与された特許集合および分類5B091が付与されなかった特許集合から、分類5B091が付与された特許集合のみを過不足なく検索できる分類検索式を作成する作業を、作業者(利用者)とともにインタラクティブに行う計算機システムである。
【0021】
本システムを利用して作業者が作成する分類検索式は、複数のキーワードが論理演算子AND/OR/NOTで連結された論理検索式を想定している。また、ANDの代わりに、特許検索でしばしば使われる近傍検索を採用しても良い。
【0022】
図1は、本発明を適用した分類付与支援システムのブロック図の一例を示す図である。
作業者は入出力装置101を介して、対象分類、対象分類が付与された文書集合(以下「分類付与文書集合」と呼ぶことがある)、キーワード候補等のデータを入力する。作業者が指定した対象分類は、対象分類データ102に格納され、作業者が指定した分類付与文書集合は、分類付与文書リスト103に格納される。
【0023】
作業者から入出力装置101を介して、分類検索式を構成するにふさわしいキーワード候補の提示が要求された場合、検索式データ管理部104は、キーワード候補抽出処理部106のキーワード候補抽出部107に対して、分類付与文書リスト103に格納された分類付与文書集合の中から、キーワード候補を抽出する処理を実行させる。ここでは、後述する処理手順(図13にて例示される)によって、「分類付与文書集合において当該キーワードがヒットする文書件数」がより多く、かつ、「分類が付与されなかった文書集合において当該キーワードがヒットする文書件数」がより少ないキーワードを特定し、後で説明する画面(図5にて例示される)において、作業者に上記ヒット文書件数およびその割合(再現率、適合率、F値)とともに提示する。ここで、「分類が付与されなかった文書集合」は、文書検索システム113に格納された全文書集合から分類付与文書リスト103に格納された分類付与文書集合を差し引くことによって得ることができる。
【0024】
また、作業者から入出力装置101を介して、前記キーワード候補に対する類義語の提示が要求された場合、検索式データ管理部104は、キーワード候補抽出処理部106の類義語候補抽出部108に対して、作業者が指定したキーワード候補に対する類義語を抽出する処理を実行させる。
【0025】
ここで、類義語を抽出する処理としては、単語辞書112に登録された単語の中からキーワード候補を構成する部分文字列を含む単語を類義語として抽出する方法、既存の類義語辞書を検索して類義語を抽出する方法、文書検索システム113の検索履歴116に格納された過去の検索式において、当該キーワード候補と論理和(OR)で連結されたキーワードを類義語として抽出する方法、Word2vecに代表される近年の機械学習技術によって単語ベクトル間の類似度から類義語を抽出する方法(すなわち、公知の機械学習技術により単語ベクトル間の類似度に基づいて生成することができるモデルからなる類義語辞書を検索して、類義語を抽出する方法)のうち、少なくとも一つ以上を採用することによって実現可能である。
【0026】
また、作業者から入出力装置101を介して、前記キーワード候補に対する関連語の提示が要求された場合、検索式データ管理部104は、キーワード候補抽出処理部106の関連語候補抽出部109に対して、作業者が指定したキーワード候補に対する関連語を抽出する処理を実行させる。ここで関連語とは、キーワード候補と共起する単語を指す。具体的には、キーワード候補と連結して複合語を形成する単語、キーワード候補と係り受け関係(主語-動詞、目的語-動詞)にある単語、左記以外の単語であって同一の文、段落に共起する単語の少なくとも一つ以上の単語を指す。これらの関連語は、テキスト解析部111において、分類付与文書リスト103のテキストデータが格納された文書テキスト114を自然言語解析(形態素・構文解析)して得られる単語データを格納した単語データ115を参照することによって得ることができる。
【0027】
また、作業者から入出力装置101を介して、前記キーワード候補またはその類義語、関連語に対するNOT語の提示が要求された場合、検索式データ管理部104は、キーワード候補抽出処理部106のNOT語候補抽出部110に対して、作業者が指定したキーワード候補またはその類義語、関連語に対するNOT語を抽出する処理を実行させる。ここでNOT語とは、キーワード候補またはその類義語、関連語を包含する単語であり、かつ、キーワード候補またはその類義語、関連語と意味的関連性が薄く、検索結果としてヒットさせることが不適切であるとみなされる単語(ノイズキーワード)である。例えば、一般の全文検索システムでは、検索キーワード「クリーニング」によって「スクリーニング」を含む文書が誤ってヒットしてしまうが、検索条件にNOT語を指定することにより、「クリーニング」を含む文書はヒットするが、「スクリーニング」(ノイズキーワード)を含む文書はヒットしないようにすることができる。これらのNOT語は、単語辞書112の見出し語を検索して当該キーワード候補またはその類義語、関連語を包含する単語をNOT語として抽出する方法、後で例示するように(図10にて例示されるように)、当該キーワード候補またはその類義語、関連語が含まれる文書テキスト114をスキャンして、当該キーワード候補等の前後の文脈を抽出して入出力装置101を介して作業者に提示し、作業者にNOT語を選定させる方法の少なくとも一つ以上を採用することによって実現可能である。
【0028】
キーワード候補抽出処理部106において抽出されたキーワード候補等のデータは、画面生成・表示部117において生成される画面に盛り込まれ、入出力装置101を介して作業者に提示される。また、キーワード候補等のデータは検索式データ管理部104のキーワード候補データ105に格納され管理される。
【0029】
図2は、本発明を適用した分類付与支援システムのハードウェア構成の一例を示す図である。
本システムは、主として、計算処理を実行する処理装置230、利用者が操作指示内容またはデータを入力するための入力装置210、計算処理結果を利用者に出力するための出力装置220、処理装置230による処理に関するプログラムおよびデータを格納する記憶装置240を用いて構成することができる。
【0030】
入力装置210は、キーボード211およびマウス212から構成される。出力装置220は、出力モニタ221から構成される。なお、入力装置および出力装置が一体化したタッチパネル等を使用しても良い。入出力データを別の計算機(例えば、文書検索システム113に関する計算機)とやりとりする場合には、入出力データはネットワーク250を介して送受信する。
【0031】
記憶装置240は、処理装置230による処理データを一時的に格納するワーキングエリア2401を含んで構成される。また、プログラムを格納するエリアである、検索式データ管理部格納エリア2404、キーワード候補抽出処理部格納エリア2406、キーワード候補抽出部格納エリア2407、類義語候補抽出部格納エリア2408、関連語候補抽出部格納エリア2409、NOT語候補抽出部格納エリア2410、テキスト解析部格納エリア2411、文書検索システム格納エリア2413、画面生成・表示部格納エリア2417と、を含んで構成される。また、データを格納するエリアである、対象分類データ格納エリア2402、分類付与文書リスト格納エリア2403、キーワード候補データ格納エリア2405、単語辞書格納エリア2412、文書テキスト格納エリア2414、単語データ格納エリア2415、検索履歴格納エリア2416を含んで構成される。処理装置230は、記憶装置240から必要なプログラムおよびデータをロードし、実行した結果を記憶装置240に格納することを繰り返すことにより処理を行う。なお、検索式データ管理部格納エリア2404は、検索式データ管理部104に含まれる分類検索式(検索式)の生成に用いるプログラムを格納する。
【0032】
図3は、本発明を適用した文書作業支援システムを使用して分類検索式を作成する作業手順の概要の一例を示す図である。
まず作業者は、対象分類データ102および分類付与文書リスト103をシステムに登録する(ステップ301)。次にシステムは、作業者からの要求に応じて、分類付与文書リスト103中の文書テキストを解析してキーワード候補を抽出し、作業者に提示する。作業者は、提示されたキーワード候補の中から適切なキーワード候補を選択する(ステップ302)。次にシステムは、作業者からの要求に応じて、作業者が選択したキーワード候補に対する類義語候補を抽出し、作業者に提示する。作業者は、提示された類義語候補の中から適切な類義語候補を選択する(ステップ303)。次にシステムは、作業者からの要求に応じて、作業者が選択したキーワード候補に対する関連語候補を抽出し、作業者に提示する。作業者は、提示された関連語候補の中から適切な関連語候補を選択する(ステップ304)。次にシステムは、作業者からの要求に応じて、作業者が選択したキーワード候補、類義語候補、関連語候補に対するNOT語候補またはNOT語候補の出現する記載箇所に係るデータを抽出し、作業者に提示する。作業者は、提示されたNOT語候補または記載箇所データを参照して適切なNOT語候補を選択する(ステップ305)。
【0033】
次にシステムは、作業者が選択したキーワード候補およびその類義語候補、関連語候補、NOT語候補をマージし、分類検索式(の構成要素)としてシステムに登録する(ステップ306)。次に作業者は、分類付与文書リスト103を過不足なく検索できる適切な分類検索式を作成できたか否かを判定する(ステップ307)。適切な分類検索式を作成できたと判定した場合、作業を終了する(ステップ308)。適切な分類検索式をまだ作成できていないと判定した場合、システムは、現時点での分類検索式(の構成要素)で検索できる分類付与文書リスト103中の分類付与文書を分類付与文書リスト103から除外した分類付与文書リスト103を生成する。そして、当該分類付与文書リスト103を対象として、ステップ302に戻って同様の作業を繰り返し、分類検索式を更新していく。
【0034】
なお、図3では、キーワード候補の提示・選択後、類義語候補の提示・選択、関連語候補の提示・選択、NOT語候補の提示・選択の順で作業を行っているが、キーワード候補の提示・選択後の順序は特に規定されるものではなく、どの順序で行っても良い。
【0035】
図4は、本発明を適用した文書作業支援システムの表示画面の一例を示す図であり、対象分類および分類付与文書集合を指定する画面の一例を示す図である。
まず作業者は、画面401を利用して、これから作成する分類検索式に対する分類名402を入力する。他の分類と区別できる名称であれば何でも良い。次に作業者は、当該分類が付与された分類付与文書集合を指定する。参照ボタン403を押下すると、ファイル一覧が表示されるので、分類付与文書リストに格納するテキストファイルを選択することによって分類付与文書リスト103を登録する。または、検索ボタン404を押下すると、文書検索システム113が呼び出されるので、そこで検索条件として分類(本実施例では5B091)を指定して検索を実行し、検索結果として出力された文書集合を分類付与文書リスト103として登録する。登録された分類付与文書リスト103は、表示エリア405に表示される。表示された分類付与文書リストを確認し、登録ボタン406を押下することにより、分類付与文書リスト103がシステムに保存される。なお、取消ボタン407は、表示エリア405に表示される分類付与文書リスト103の取り消しに用いるボタンである。
【0036】
図5は、本発明を適用した文書作業支援システムの表示画面の一例を示す図であり、キーワード候補の提示の一例を示す図である。
図5に示す画面501において解析ボタン502を押下すると、システムは後述する手順(図13にて例示される)によってキーワード候補を抽出し、キーワード候補の一覧を表形式で作業者に提示する。この表は、キーワード候補503、分類付与文書リスト103内でヒットした文書件数504、分類が付与されていない文章として全文書内でヒットした文書件数505、分類付与の漏れの少なさの度合いを示す再現率506、分類付与のノイズの少なさの度合いを示す適合率507、再現率と適合率の調和平均を示すF値508から構成される。図5の表はこのうち、F値によって降順ソートされた順に表示されているが、項目名の▽印を押下することにより、任意の列でソートして表示できる。
【0037】
ここで、キーワードに「ヒットする文書」の定義についてであるが、一般の文書検索システム113では、キーワードが当該文書の中に含まれれば「ヒットする」とみなして検索結果に含まれる。しかし、本実施形態では、分類を付与すべき文書であるか否かを判定するものである。したがって、例えばキーワード「翻訳」が1度だけ出現する文書が当該分類「機械翻訳」を付与すべき文書であるかは疑わしい。本当に機械翻訳に係る発明であるならば、「翻訳」(あるいはこれに相当する類義語)が文書中に複数回出現するはずである。そこで本実施形態における「ヒットする文書」として、単に検索システムによって検索された文書件数ではなく、各文書中の出現頻度が予め指定された閾値以上である文書のみを「ヒットする文書」として認定するという後処理を加えても良い。この後処理により、当該分類を付与すべきでないノイズ文書をある程度除外できる。
【0038】
作業者は、提示されたキーワード候補の中から適切と思われるキーワード候補を一つ選定する。この選定の基準であるが、図5に表示されている単語「言語」は、分類付与文書3,139件のうち、1,171件にヒットする、分類付与漏れが比較的少ない(再現率が比較的高い(再現率=1,171÷3,139=37.3%))単語であるが、一方で全ヒット件数が8,455件であり、分類付与ノイズが比較的多い(適合率が比較的低い(適合率=1,171÷8,455=20.1%))単語である。一方、単語「翻訳」は、分類付与文書3,139件のうち、717件にヒットする、分類付与漏れが比較的少ない(再現率が比較的高い(再現率=717÷3,139=22.8%))単語である。一方で、全ヒット件数が3,578件であり、分類付与ノイズは「言語」よりも少ない(適合率=717÷3,578=20.0%)単語である。一般に、どの単語をキーワード候補として選定するのが妥当であるかをこの段階で判定することは難しい。単語「言語」を選定し、他の関連語と論理積ANDで連結することによって分類付与ノイズが低減された適切な分類検索式を作成できるかもしれないし、単語「翻訳」を選定し、他の類義語と論理和ORで連結することによって、分類付与漏れが改善された適切な分類検索式を作成できるかもしれない。本実施形態では、これらのヒット件数のデータと、対象分類が「機械翻訳」であることを踏まえると、言語処理分野において一般的な単語である「言語」よりも機械翻訳分野を特定する単語「翻訳」の方が妥当であると考えられる。また、F値が比較的高い単語からキーワード候補を選定するのも一つの指標として有効であると考えられる。本実施形態では、「翻訳」をキーワード候補として次の作業を進めることとする。図5で類義語ボタン509を押下すると、キーワード候補「翻訳」に対する類義語を選定する画面(後述する図6にて例示される)に遷移する。
【0039】
図6および図7は、本発明を適用した文書作業支援システムの表示画面の一例を示す図であり、キーワード候補の類義語の提示の一例を示す図である。
図6に示す画面601において、候補603の中からキーワード候補「翻訳」を選択して類義語ボタン609を押下すると、画面下部にその類義語が表形式で作業者に提示される。なお、符号(604~608)は図5の場合と同様である。ここでもキーワード候補と同様に、キーワード候補の類義語候補613、分類付与文書リスト内でヒットした文書件数614、分類が付与されていない文章として全文書内でヒットした文書件数615、再現率616、適合率617、F値618から構成される。前述したように、類義語の抽出は、単語辞書112に登録された単語の中からキーワード候補を構成する部分文字列を含む単語を類義語として抽出する方法、既存の類義語辞書を検索して類義語を抽出する方法、文書検索システム113の検索履歴116に格納された過去の検索式において、当該キーワード候補と論理和(OR)で連結されたキーワードを類義語として抽出する方法、Word2vecに代表される近年の機械学習技術によって、単語ベクトル間の類似度から類義語を抽出する方法の少なくとも一つ以上を採用することによって実現可能である。作業者は、類義語の意味と、類義語のヒット件数のデータと、対象分類が「機械翻訳」であることを踏まえた上で、提示された類義語候補の中からキーワード候補「翻訳」の類義語として適切な単語を選定する。
【0040】
図7では、図6において作業者がキーワード候補「翻訳」の類義語として「対訳」「通訳」「和訳」「英訳」「直訳」を選択して連結ボタン619を押下した後に遷移する画面を示している。なお、符号(703~708、713~718、719)は図6の場合と同様である。図7の画面701における下部の表に示すように、選択された類義語はキーワード候補「翻訳」と論理和ORで連結される。また、この論理和に対して、分類付与文書リスト内でヒットした文書件数724、分類が付与されていない文章として全文書内でヒットした文書件数725、再現率726、適合率727、F値728が算出され、算出結果が作業者に提示される。キーワード候補に類義語をORで連結したことにより、再現率が22.8%から24.0%に向上し、適合率も20.0%から20.5%に向上していることが分かる。作業者はこれらの数値を確認することにより、自分が作成している分類検索式による分類付与精度が徐々に向上していることを確認できる。なお、画面に表示されていない類義語を作業者が想起した場合、分類検索式要素723に追加入力できる。そして、再計算ボタン729を押下することにより、追加入力後のヒット数724、全ヒット数725、再現率726、適合率727、F値728を再計算して更新・表示する。
【0041】
図8および図9は、本発明を適用した文書作業支援システムの表示画面の一例を示す図であり、キーワード候補の関連語の提示の一例を示す図である。図8は、図7において関連語ボタン730を押下した後に遷移する画面を示している。なお、符号(803~808)は図7の場合と同様である。
図8に示す画面801において、分類検索式要素803の中から「翻訳or対訳or通訳or和訳or英訳or直訳」を選択して複合ボタン809を押下すると、「翻訳or対訳or通訳or和訳or英訳or直訳」と連結して形成される複合語を構成する単語が関連語候補として複合語候補813(図8において候補813)に提示される。ここで図8におけるxxは図面サイズの都合上、「翻訳or対訳or通訳or和訳or英訳or直訳」を指すものとする。キーワード候補および類義語と同様、ヒット数814、全ヒット数815、再現率816、適合率817、F値818が算出されて提示される。作業者はこれらの数値を参照し、キーワード候補「翻訳」およびその類義語でヒットする文書を有効に絞り込めそうな複合語候補を選択する。
【0042】
図9では、図8において作業者が複合語として「xx装置」「xxシステム」「xx方法」「機械xx」「自動xx」を選択して連結ボタン819を押下した後に遷移する画面を示している。なお、符号(903~908、913~918、922)は図8の場合と同様である。図9に示す画面901において、選択された複合語は論理和ORで連結される。また、この論理和に対して、同様に、ヒット数924、全ヒット数925、再現率926、適合率927、F値928が算出され、算出結果が作業者に提示される。キーワード候補および類義語を複合語化したことにより、再現率は24.0%から13.2%に低下するも、適合率を20.5%から66.0%に大幅に向上できていることが分かる。作業者はこれらの数値を確認することにより、自分が作成している分類検索式による分類付与精度が徐々に向上していることを確認できる。なお、ここで画面に表示されていないキーワード候補を作業者が想起した場合、分類検索式要素923に追加入力できる。そして、再計算ボタン929を押下することにより、追加入力後のヒット数924、全ヒット数925、再現率926、適合率927、F値928を再計算して更新・表示する。
【0043】
図8および図9は、関連語として複合語を扱った場合の画面の一例を示した図であるが、複合語でなく係り受け語、共起語を関連語として扱ってもよい。係り受け語の場合、図8において係受ボタン810を押下すると、キーワード候補「翻訳」と主語・述語、目的語・述語関係にある単語を、自然言語処理では公知である構文解析によって抽出して提示する。例えば、「計算機が文章を翻訳する」という文があった場合、述語「翻訳」の主語「計算機」および目的語「文章」を抽出し、キーワード候補「翻訳」とANDで連結して、図8の係り受け語候補813(図8において候補813)に係り受け語候補として作業者に提示する。また、共起語の場合、図8において共起ボタン811を押下すると、キーワード候補「翻訳」と同一の文に共起する単語(名詞)を、自然言語処理では公知である形態素解析によって抽出して提示する。例えば、「計算機が文章を英語に翻訳する」という文があった場合、キーワード候補「翻訳」と共起する単語「計算機」「文章」「英語」を抽出し、キーワード候補「翻訳」とANDで連結して、図8の共起語候補813(図8において候補813)に共起語候補として作業者に提示する。
【0044】
図10および図11は、本発明を適用した文書作業支援システムの表示画面の一例を示す図であり、キーワード候補等のNOT語の提示の一例を示す図である。図10は、図9においてNOT語ボタン931を押下した後に遷移する画面を示している。
図10に示す画面1001おいて、符号(1004~1008)は分類検索式要素1003のデータである。画面1001において、分類検索式要素1003の中から「翻訳装置」を選択してNOT語ボタン1009を押下すると、「翻訳装置」を含むが言語の翻訳には関係しない単語がNOT語候補1010として提示される。提示されている単語「細胞翻訳装置」は、単語辞書112に登録された単語のうち、「翻訳装置」を含む単語を抽出したものである。すなわち、「細胞翻訳装置」はノイズキーワードの候補として特定された単語である。作業者は提示された単語をチェックし、言語の翻訳に関係しない単語をNOT語として選択する。ここでは、「細胞翻訳装置」は言語の翻訳には関連しないので、NOT語として選定される。また、単語辞書112に登録されていないNOT語については、「翻訳装置」が記載された箇所の前後の文字列を文脈情報1013として提示する。この時、「翻訳装置」が中央に並ぶように提示し、その前後の文字列でソートする(前ソート1011、後ソート1012を押下する)ことにより、同一の文脈を持つ記載箇所を集約できるため、NOT語をより早く特定できる。
【0045】
図11では、図10において作業者がNOT語として「細胞翻訳装置」および「インビトロ翻訳装置」を選択して連結ボタン1014を押下した後に遷移する画面を示している。なお、画面1101おいて、符号(1103~1108、1110~1114)は図10の場合と同様である。これらのNOT語は、「翻訳装置」に対してNOT演算子で連結され、分類検索式要素1123に提示される。また、ヒット数1124、分類が付与されていない文章として全文書内でヒットした全ヒット数1125、再現率1126、適合率1127、F値1128が算出され、算出結果が作業者に提示される。NOT語を追加したことにより、適合率を66.0%から77.7%に向上できていることが分かる。作業者はこれらの数値を確認することにより、自分が作成している分類検索式による分類付与精度が徐々に向上していることを確認できる。
【0046】
図12は、本発明を適用した文書作業支援システムの表示画面の一例を示す図であり、次のキーワード候補を提示する画面の一例を示す図である。図12は、図11において作業者が登録ボタン1130を押下した後に遷移する画面を示している。
図12に示す画面1201の画面上部に表示された分類検索式要素1203とそのヒット件数1204、全ヒット件数1205、再現率1206、適合率1207、F値1208のデータが、検索式データ管理部104のキーワード候補データ105に格納される。分類検索式要素1203は、分類検索式を構成する要素の一つとなる。次に、解析ボタン1212が押下された場合、分類「機械翻訳」が付与された文書数3,139件から、この分類検索式要素1203によってヒットする文書411件を除外した文書集合2,728件を生成し、この文書集合を新たな分類付与文書リスト103とし、同様にキーワード候補を抽出してキーワード候補1213に提示する。また、ヒット数1214、全ヒット数1215、再現率1216、適合率1217、F値1218を提示する。以降、図5以降の作業を繰り返すことにより、分類検索式要素1203を作成・追加し、最後にこれらの分類検索式要素1203をORで連結することにより、最終的な分類検索式を作成する。
【0047】
類義語ボタン(509、609、709、1219)が押下されることで、類義語に関する画面に遷移する処理が行われる。関連語ボタン(510、610、710、730、930、1221)が押下されることで、関連語に関する画面に遷移する処理が行われる。NOT語ボタン(511、611、711、731、931、1109、1129、1220)が押下されることで、NOT語に関する画面に遷移する処理が行われる。また、複合語ボタン(809、909、919)が押下されることで、複合語候補に関する画面に遷移する処理が行われ、係受ボタン(810、910、920)が押下されることで、係り受け語に関する画面に遷移する処理が行われ、共起ボタン(811、911、921)が押下されることで、共起語に関する画面に遷移する処理が行われる。そして、登録ボタン(512、612、712、732、932、1130、1222)が押下されることで、現在の分類検索式(の構成要素)がシステムに登録される。従って、これらのボタンを用いることで、作業者は適宜の画面に遷移させることができ、分類検索式の作成にあたって効率的に作業を進めることができる。
【0048】
図13を参照しながら、キーワード候補の抽出に関する処理の一例について説明する。キーワード候補は図5にて例示されたデータである。図13は、本発明を適用した文書作業支援システムのキーワード候補を特定する処理の一例を示す図である。
テキスト解析部111は、文書テキスト114に対して形態素解析、構文解析を行い、テキストを単語に分割し、単語間の係り受けを解析する(ステップ1301)。次に、分割した単語の中から名詞となる単語を抽出する(ステップ1302)。ステップ1301、ステップ1302については、事前に処理しておき、結果を単語データ115に格納しておくことにより、処理時間を低減できる。次に、分類付与文書リスト103内の分類付与文書集合および分類付与文書集合以外の文書集合の各々について、単語の文書内出現頻度を算出し、文書内出現頻度が閾値以上の文書件数をカウントする(ステップ1303)。次に、各単語について、分類付与精度(再現率、適合率、F値)を算出し、F値で降順ソートする(ステップ1304)。
【0049】
以上の説明より、特定の分類が付与された文書集合1と、当該分類が付与されていない文書集合2を入力として、当該文書集合1および文書集合2を構成する文書テキストの中から、文書集合1を構成する文書にできるだけ多くヒットし、かつ、文書集合2を構成する文書にできるだけ少なくヒットするキーワード候補を抽出する手段と、前記文書集合1を構成する文書数に対する当該キーワード候補を含む文書数(ヒット数)またはその割合(再現率)と、前記文書集合2を構成する文書数に対する当該キーワード候補を含む文書数(全ヒット数)または前記文書集合1を構成する文章数に対する当該キーワード候補を含む文章数(ヒット数)と前記文書集合2を構成する文章数に対する当該キーワード候補を含む文章数(全ヒット数)の割合(適合率)と、前記2種類の割合の調和平均のうちの少なくとも一つ以上とともに前記抽出したキーワード候補を利用者に提示する手段と、利用者によって選択されたキーワード候補を組み合わせて検索式を生成する手段を有する発明(装置、システム)が提供される。
また、より具体的な例では、利用者によって選択されたキーワード候補に対する類義語候補、関連語候補、ノイズキーワード候補を抽出する手段と、前記文書集合1を構成する文書数に対する当該類義語候補、関連語候補、ノイズキーワード候補を含む文書数(ヒット数)またはその割合(再現率)と、前記文書集合2を構成する文書数に対する当該類義語候補、関連語候補、ノイズキーワード候補を含む文書数(全ヒット数)または前記文章数に関する割合(適合率)と、前記2種類の割合の調和平均のうちの少なくとも一つ以上とともに前記抽出した類義語候補、関連語候補、ノイズキーワード候補を利用者に提示する手段と、利用者によって選択された類義語候補、関連語候補、ノイズキーワード候補を組み合わせて検索式を生成する手段を有する発明が提供される。
また、処理装置がこれらの手段を実行する方法の発明が提供される。
【0050】
本発明によれば、分類が付与された文書と付与されなかった文書が存在する既存の文書に対して、当該分類が付与された文書のみを過不足なく検索できる論理検索式(分類検索式)を人間が作成する作業を支援することができる。具体的には、個々の分類の範囲を規定する分類検索式を、その分類検索式による分類付与精度を確認しながら試行錯誤的にかつ効率良く作成できる。また、分類付与精度を確認しながら分類検索式を構成するキーワード候補を選定できるため、例えば、「分類付与結果を特許の先行技術調査に適用したいので、分類付与ノイズはある程度許容できるが、分類付与漏れは極力防止したい」といったように、分類の用途に応じて分類付与漏れおよび分類付与ノイズのバランスが考慮された分類検索式を作成できる。さらに、分類の範囲を論理検索式で規定できるため、文書検索において当該分類を検索条件として使用する際に、当該分類に対応する分類検索式の一部を修正して使用でき、検索目的により合致した検索が可能となる。さらに、将来的に分類を複数のサブ分類に分割するといったように、分類の範囲を変更する必要性が生じた場合、既存の分類検索式をベースとして個々のサブ分類に対応する分類検索式を作成できるため、分類検索式を作成する作業コストを低減できる。
【0051】
さらに本発明では、利用者が選択して確定した検索式でヒットする文書集合1の文書を除外し、残った文書集合1を対象として上記処理を繰り返す手段を備えることで、最終的な分類検索式を作成することができる。
【0052】
上記した非特許文献1は、特定の文書集合のみを過不足なく検索できる検索式を自動生成する方法について言及している。しかし、本方法は検索式が自動で生成されるため、人間の意図する検索式が出力されないことがしばしばある。これに対して本発明は、人間と計算機がインタラクティブに検索式を作成する作業環境を提供するものであり、分類の用途を考慮した上で、人間の意図する検索式を効率良くかつ高精度に作成する作業を支援するものである。
【0053】
上記した特許文献1は、分類別の分類ルールを生成した学習用文書自体に分類を付与し、誤って分類が付与された文書を選別して、分類ルールの追加または重み変更を行って分類ルールの改良処理を行い、自動分類付与処理の精度を改善する技術を開示する。しかし、本先行技術(特許文献1)では、機械的に生成されたルールをベースにルールを改良するものであるのに対して、本発明では、ルール(検索式)を一から作成する作業を支援するものである。また、本先行技術では、単語の有無、重み付けによるルールを対象としているが、本発明では、論理検索式(分類検索式)の作成を対象としており、その生成手順・支援方法において差異がある。また、本発明では、ルールを論理検索式(分類検索式)として作成するので、検索時に作成する検索条件の中にこのルール(分類検索式)を埋め込んで、その一部を追加・修正・削除して使用できるという利点がある。さらに、本先行技術では、単語の重みの全体最適化が困難である(単語Aの重みを上げたら、単語Bの重みが不適切になるというトレードオフが発生する可能性がある)のに対して、本発明では、分類検索式を構成する要素ごとに最適化が可能である点で差異がある。
【0054】
以上、本発明の実施形態について詳述したが、本発明は、前記の実施形態に限定されるものではなく、特許請求の範囲に記載された本発明の精神を逸脱しない範囲で、種々の設計変更を行うことができるものである。例えば、前記した実施の形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、また、ある実施形態の構成に他の実施形態の構成を加えることも可能である。さらに、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。
【0055】
処理装置230は、プロセッサとして機能すればよく、CPU(Central Processing Unit)等の適宜の半導体デバイスを用いて構成することができる。記憶装置240は、HDD(Hard Disk Drive)等の適宜のデバイスを用いて構成することができる。また、RAM(Random Access Memory)が用いられてもよい。また、本発明の機能が発揮される範囲で適宜に変更されてもよく、例えば、処理装置230や記憶装置240は1つのデバイスあるいは複数のデバイスにより構成されてもよい。また、処理装置230や記憶装置240は、例えば、同一の種類のデバイスにより構成されてもよいし、異なる種類のデバイスにより構成されてもよい。
【0056】
上記で説明した表示の態様は一例であり、表示の態様は適宜に変更されてもよい。
【符号の説明】
【0057】
101…入出力装置、102…対象分類データ、103…分類付与文書リスト、104…検索式データ管理部、105…キーワード候補データ、106…キーワード候補抽出処理部、107…キーワード候補抽出部、108…類義語候補抽出部、109…関連語候補抽出部、110…NOT語候補抽出部、111…テキスト解析部、112…単語辞書、113…文書検索システム、114…文書テキスト、115…単語データ、116…検索履歴、117…画面生成・表示部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13