IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 東芝ITコントロールシステム株式会社の特許一覧

<>
  • 特開-分類装置 図1
  • 特開-分類装置 図2
  • 特開-分類装置 図3
  • 特開-分類装置 図4
  • 特開-分類装置 図5
  • 特開-分類装置 図6
  • 特開-分類装置 図7
  • 特開-分類装置 図8
  • 特開-分類装置 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024061546
(43)【公開日】2024-05-07
(54)【発明の名称】分類装置
(51)【国際特許分類】
   G06F 16/35 20190101AFI20240425BHJP
【FI】
G06F16/35
【審査請求】未請求
【請求項の数】2
【出願形態】書面
(21)【出願番号】P 2022179899
(22)【出願日】2022-10-21
(71)【出願人】
【識別番号】391017540
【氏名又は名称】東芝ITコントロールシステム株式会社
(72)【発明者】
【氏名】吉永 智博
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA03
5B175HB01
5B175HB02
(57)【要約】
【課題】非文書を文書と同一のデータベースとして管理し、文書と同様に非文書を検索することを可能とする分類装置を提供する。
【解決手段】文書および非文書からなる集合に含まれる文書から一定の単位で分割する文書分割手段10と、文書分割手段10により分割された分割文書から特徴語を抽出し分類ラベルとして分割文書に付与する第1の分類ラベル付与手段20と、文書および非文書からなる集合に含まれる第1の非文書と分割文書に付与された分類ラベルを付与する第2の分類ラベル付与手段30とを備える分類装置1。
【選択図】図1
【特許請求の範囲】
【請求項1】
文書および非文書からなる集合に含まれる文書から一定の単位で分割する文書分割手段と、
前記文書分割手段により分割された分割文書から特徴語を抽出し分類ラベルとして前記分割文書に付与する第1の分類ラベル付与手段と、
前記文書および非文書からなる集合に含まれる第1の非文書と前記分割文書に付与された分類ラベルを付与する第2の分類ラベル付与手段と、を備える分類装置。
【請求項2】
請求項1に記載の分類装置において、前記第1の非文書に付与された前記分類ラベルを第2の非文書に付与する副分類ラベル付与手段と、を備える分類装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の実施形態は、非文書データを文書データと同一の検索システムで使用するための効率的な分類装置に関する。
【背景技術】
【0002】
ユーザーが効率よく特定の資料を参照するために、データベースを構築し検索システムを使用することで照会することが行われ、元データの特徴を示す特徴語を検索時に使用するための分類ラベルとするのが一般的である。
【0003】
膨大なデータを元にデータベースを作成するにあたり、文書データから特徴語を抽出して分類ラベルをシソーラス毎にクラスタリングし、検索時にそのシソーラスで照会するシステムが考案されている(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2013-65097号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
従来の技術によれば、文書からなる集合から抽出したい文書を検索するシステムにおいて、文書内の特徴語を分類ラベルとし、最適な文書に効率よくたどり着くことができる。しかし、個々の文書が持つ文字情報を元に分類ラベルを付与するため、文字情報を持たない写真や絵などの非文書にはこの方法を適用できない。同一の集合に文書と非文書を混在させて同時に検索可能にするために、非文書に対して手作業で分類ラベルを一つ一つ付与していく手段もあるが非常に効率が悪いという問題がある。
【0006】
また、手作業で分類ラベルを付与する場合、作業者によって分類ラベルを付与する基準にずれが生じ、検索の精度が落ちてしまう恐れがある。さらに、分類ラベルが付与された非文書と他の文書や他の非文書との関係性が乏しく、検索して抽出したい非文書にたどり着くのが困難になる可能性もある。
【0007】
本実施形態は、上記のような従来技術の問題点を解決するために提案されたものである。本実施形態の目的は、非文書を文書と同一のデータベースとして管理し、文書と同様に非文書を検索することを可能とする分類装置を提供することにある。
【課題を解決するための手段】
【0008】
前記目的を達成するため、請求項1記載の分類装置は、文書および非文書からなる集合に含まれる文書から一定の単位で分割する文書分割手段と、前記文書分割手段により分割された分割文書から特徴語を抽出し分類ラベルとして前記分割文書に付与する第1の分類ラベル付与手段と、前記文書および非文書からなる集合に含まれる第1の非文書と前記分割文書に付与された分類ラベルを付与する第2の分類ラベル付与手段と、を備えることを特徴とする。
【0009】
前記目的を達成するため、請求項2記載の分類装置は、請求項1に記載の分類装置において、前記第1の非文書に付与された前記分類ラベルを第2の非文書に付与する副分類ラベル付与手段と、を備えることを特徴とする。
【図面の簡単な説明】
【0010】
図1】分類装置を示す図。
図2】文書および非文書からなる集合を示す図。
図3】文書を一定の単位で分割する文書分割手段を示す図。
図4】分割文書のデータベース構造を示す図。
図5】分割文書から特徴語を抽出し分類ラベルとして付与する図。
図6】分割文書と非文書を紐づけ、分割文書に付与された分類ラベルを非文書に付与する図。
図7】分類ラベルを付与された非文書を示す図。
図8】分類ラベルを付与された非文書間で、関係のある非文書に分類ラベルを付与する図。
図9】分類されたデータベースを用いた検索システムの構成を示す図。
【発明を実施するための形態】
【0011】
(第1の実施形態)
以下、本発明に係る第1の実施形態の構成について図1を参照して説明する。図1は本発明の第1の実施形態を示す分類装置(1)のシステム構成図である。検索に最適なデータベースを構成するための分類ラベルを作成するために、文書分割手段(10)と、分割文書に分類ラベルとして付与する第1の分類ラベル付与手段(20)と、非文書に分類ラベルを付与する第2の分類ラベル付与手段(30)と、を備える。これらは例えば、同一ネットワーク上の電子計算機によって実行される。
【0012】
図2の集合(2)は、データベースの元となる複数の文書や非文書の集まりから成る。文書は例えばテキストファイルなどの電子データから成り、非文書も画像データなどの電子データで構成されている。
【0013】
図3は文書分割手段(10)により分割された文書A(100)を例示したものである。文書分割手段(10)は、文書A(100)を章毎にA-1(110)、A-2と分割し、さらにA-1を項目毎にA-1-1(111)、 A-1-2、A-1-3へ、A-2をA-2-1、A-2-2へと詳細に分割する。
【0014】
図4は文書分割手段(10)で分割した文書をデータベースとして管理するための構造を示す。文書データが分割可能であった場合、最小単位まで分割された文書をテキストファイルとし、一段階前の分割をフォルダとしその中に各ファイルを格納するデータベース構造とする。
【0015】
図5は第1の分類ラベル付与手段(20)により分類ラベルを付与された分割文書A-1-1である。まず、特徴語を集合(2)内に属する文書全体で出現頻度の高い語句を特徴語としてa、bなどを定義する。第1の分類ラベル付与手段(20)は、文書分割手段(10)により分割された分割文書A-1-1に含まれる特徴語a(1001)、b(1002)を抽出し、それを分類ラベルa(2001)、b(2002)として分割文書A-1-1に付与する。キーワードを指定して検索する際に付与された分類ラベルを対象とすることで効率的に目的の文書を探すことが可能となる。
【0016】
分類ラベルは設定された単一の単語だけでなく、同一の意味を持つシソーラスとして設定することで、シソーラスに含まれる単語であれば同一の検索結果を得ることができるようになり、個々人による検索ワードの差異にも対応可能となる。
【0017】
図6は第2の分類ラベル付与手段(30)により分類ラベルを付与された非文書α(10000)である。第2の分類ラベル付与手段30は、非文書αに対し関係する分割文書A-1-1、B-2-3(223)を指定しそれを紐づける。指定する方法としては、手動でおこなったり、あるいは非文書のファイル名と分類ラベルとを比較し共通する単語を持つものを自動的に指定する方法などが考えられる。紐づけられた分割文書の持つ全ての分類ラベルa、b、c(2003)を非文書αの分類ラベルとして付与する。これにより非文書も文書と同一のデータベースに保管し、同一のシステム上で同時に検索することが可能となる。
【0018】
(第2の実施形態)
以下、本発明に係る第2の実施形態について説明する。文書から非文書への分類ラベル付与は第1の実施形態と同じなため説明は省略し、作用、効果について図7、8を参照して説明する。
【0019】
本発明に係る第2の実施形態の非文書から非文書への副分類ラベル付与について示す。
【0020】
図7は分類ラベルa、b、cを持った非文書αと、分類ラベルa、d(2004)を持った非文書β(20000)を示す。
【0021】
図8は非文書αから非文書βへの副分類ラベル付与を示す。非文書α、βは共通する分類ラベルaを持ち関連があることが分かる。非文書αは持ち非文書βは持たない分類ラベルb、cを、非文書βの副分類ラベルb(3002)、c(3003)として付与する。副分類ラベルとは分類装置1にて付与された分類ラベルより検索一致度が低く設定された分類ラベルである。副分類ラベルにより非文書間で関連性を持たせ一致度の大小を区別することで、検索結果の整理が容易となり検索時に必要なデータへの効率的なアクセスが可能となる。
【0022】
図9は第1の実施形態ならびに第2の実施形態により作成されたデータベースを用いた検索装置の構成例を示す。分類された文書と非文書からなるデータベースはHDDなどの記憶装置に格納される。検索ソフトウェアを有した電子計算機をLANやインターネットを介してデータベースを格納したHDDと接続し、検索時に検索アプリケーションからHDD内のデータベースを参照する。検索ワードと一致した分類ラベルを持つデータベースを抽出し検索結果として電子計算機へと返す。データベース内には分類ラベルを付与された文書と非文書があるため、一度に検索し結果として反映することが可能となる。
【符号の説明】
【0023】
1・・・分類装置
2・・・集合
10・・・文書分割手段
20・・・第1の分類ラベル付与手段
30・・・第2の分類ラベル付与手段
100・・・文書
110、111、112、223・・・分割文書
1001、1002・・・特徴語
2001、2002、2003、2004・・・分類ラベル
3002、3003・・・副分類ラベル
10000、20000・・・非文書
図1
図2
図3
図4
図5
図6
図7
図8
図9