IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社スカイコムの特許一覧 ▶ 国立大学法人 宮崎大学の特許一覧

特許7254314文書データ分類システム、文書データ分類方法及びプログラム
<>
  • 特許-文書データ分類システム、文書データ分類方法及びプログラム 図1
  • 特許-文書データ分類システム、文書データ分類方法及びプログラム 図2
  • 特許-文書データ分類システム、文書データ分類方法及びプログラム 図3
  • 特許-文書データ分類システム、文書データ分類方法及びプログラム 図4
  • 特許-文書データ分類システム、文書データ分類方法及びプログラム 図5
  • 特許-文書データ分類システム、文書データ分類方法及びプログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B1)
(11)【特許番号】
(24)【登録日】2023-03-31
(45)【発行日】2023-04-10
(54)【発明の名称】文書データ分類システム、文書データ分類方法及びプログラム
(51)【国際特許分類】
   G06F 16/35 20190101AFI20230403BHJP
【FI】
G06F16/35
【請求項の数】 5
(21)【出願番号】P 2022037668
(22)【出願日】2022-03-11
【審査請求日】2022-03-25
【早期審査対象出願】
(73)【特許権者】
【識別番号】397038266
【氏名又は名称】株式会社スカイコム
(73)【特許権者】
【識別番号】504224153
【氏名又は名称】国立大学法人 宮崎大学
(74)【代理人】
【識別番号】100177220
【弁理士】
【氏名又は名称】小木 智彦
(72)【発明者】
【氏名】小牧 祐菜
(72)【発明者】
【氏名】チョウデュリモヒウッディン
(72)【発明者】
【氏名】上野 恵梨
(72)【発明者】
【氏名】片山 徹郎
(72)【発明者】
【氏名】▲萩▼山 恒威
【審査官】齊藤 貴孝
(56)【参考文献】
【文献】国際公開第2021/210073(WO,A1)
【文献】国際公開第2021/084702(WO,A1)
【文献】特開2019-049964(JP,A)
【文献】国際公開第2022/010579(WO,A1)
【文献】米国特許出願公開第2020/0111023(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06F 40/00-40/58
(57)【特許請求の範囲】
【請求項1】
ドキュメントフォーマットからデータを抽出して分類する文書データ分類システムであって、
前記抽出したデータにアノテーションデータを付与して第1学習モデルを作成する第1学習モデル作成手段と、
前記第1学習モデルに基づいて、前記抽出したデータをブロックデータとしてブロック化するブロック化手段と、
前記ブロックデータをデータ種別毎に分類する分類手段と、
前記分類したブロックデータの文書内容を解析するために、文書要素を細分化した結果をアノテーションデータとして付与して第2学習モデルを作成する第2学習モデル作成手段と、
前記第2学習モデルに基づいて、前記分類したブロックデータにラベルとして割り当てるラベリング手段と
を備えることを特徴とする文書データ分類システム。
【請求項2】
前記ブロック化手段は、前記第1学習モデルに基づいて前記ブロックデータのセグメンテーション情報を予測することを特徴とする請求項1に記載の文書データ分類システム。
【請求項3】
割り当てられる前記ラベルは、細分化した前記文書要素であることを特徴とする請求項1に記載の文書データ分類システム。
【請求項4】
ドキュメントフォーマットからデータを抽出して分類する文書データ分類システムが実行する文書データ分類方法であって、
前記抽出したデータにアノテーションデータを付与して第1学習モデルを作成するステップと、
前記第1学習モデルに基づいて、前記抽出したデータをブロックデータとしてブロック化するステップと、
前記ブロックデータをデータ種別毎に分類するステップと、
前記分類したブロックデータの文書内容を解析するために、文書要素を細分化した結果をアノテーションデータとして付与して第2学習モデルを作成するステップと、
前記第2学習モデルに基づいて、前記分類したブロックデータにラベルとして割り当てるステップと
を備えることを特徴とする文書データ分類方法。
【請求項5】
ドキュメントフォーマットからデータを抽出して分類するコンピュータに、
前記抽出したデータにアノテーションデータを付与して第1学習モデルを作成するステップ、
前記第1学習モデルに基づいて、前記抽出したデータをブロックデータとしてブロック化するステップ、
前記ブロックデータをデータ種別毎に分類するステップ、
前記分類したブロックデータの文書内容を解析するために、文書要素を細分化した結果をアノテーションデータとして付与して第2学習モデルを作成するステップ、
前記第2学習モデルに基づいて、前記分類したブロックデータにラベルとして割り当てるステップ
を実行させるためのコンピュータ読み取り可能なプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書データ分類システム、文書データ分類方法及びプログラムに関する。
【背景技術】
【0002】
従来、PDFファイルなどの多岐のドキュメントフォーマットで作成された電子文書は、紙文書の代用としての利用に欠かせないものになっている。例えば、文書を電子文書として保管する場合、紙文書として保管した場合に比べて、スペースもコストも抑えることができる。また、電子文書を保管した場所に通信可能に接続された装置であれば、電子文書を遠隔でも利用することができる。
【0003】
このように電子文書自体は広く利用されているが、さらに電子文書を活用しようと文書内容のデータを解析および分類するために、各種ドキュメントフォーマットから抽出し、抽出したデータを利用することが知られている。(特許文献1)
【先行技術文献】
【特許文献】
【0004】
【文献】特許第6982347号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、特許文献1に示されたような方法では、抽出したデータの解析及び分類手順が確立されておらず、抽出したデータを解析および分類するためには、人手で読み解くことが必要になるため、無駄なコストがかかるなど負担が大きい。
【0006】
そこで、本発明者らは、電子文書から抽出したデータの解析及び分類手順を確立するべく、文書内容を分類することと、紙文書時代から培われた文書構成を解析することとを組み合わせることで、文書内容を活用し、さらには、章節などの章立てや段組み、ロゴなどの画像の配置様式などの書式や文書内容を再活用することによって、効率的な文書の活用ができることに着目した。
【0007】
本発明は、これらの課題に鑑み、多岐のドキュメントフォーマットで作成された電子文書の内容を人手によらずに解析して分類することが可能な文書データ分類システム、文書データ分類方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
本発明では、以下のような解決手段を提供する。
【0009】
第1特徴に係る発明は、ドキュメントフォーマットからデータを抽出して分類する文書データ分類システムであって、
前記抽出したデータにアノテーションデータを付与して第1学習モデルを作成する第1学習モデル作成手段と、
前記第1学習モデルに基づいて、前記抽出したデータをブロックデータとしてブロック化するブロック化手段と、
前記ブロックデータをデータ種別毎に分類する分類手段と、
前記分類したブロックデータの文書内容を解析するために、文書要素を細分化した結果をアノテーションデータとして付与して第2学習モデルを作成する第2学習モデル作成手段と、
前記第2学習モデルに基づいて、前記分類したブロックデータにラベルとして割り当てるラベリング手段と
を備えることを特徴とする文書データ分類システムを提供する。
【0010】
第1特徴に係る発明によれば、抽出したデータにアノテーションデータを付与して第1学習モデルを作成し、第1学習モデルに基づいて、抽出したデータをブロック化してからデータ種別毎に分類し、分類したブロックデータの文書内容を解析するために、文書要素を細分化した結果をアノテーションデータとして付与して第2学習モデルを作成し、第2学習モデルに基づいて、分類したブロックデータにラベルとして割り当てることから、文書内容を分類することと紙文書時代から培われた文書構成を解析することとを組み合わせることによって、効率的な文書の活用が可能である。また、構成化されていない電子文書を解析結果に基づいて構成化できるため、元の電子文書よりも可用性の高い電子文書への変換が可能である。また、解析内容やラベルが把握することができ、ユーザが指定したキーワードに合致する文書を検索することが可能である。
【0013】
本発明は、コンピュータシステムのカテゴリであるが、文書データ分類方法及びプログラム等の他のカテゴリにおいても、そのカテゴリに応じた同様の作用・効果を発揮する。
【発明の効果】
【0014】
本発明によれば、多岐のドキュメントフォーマットで作成された電子文書の内容を人手によらずに解析して分類することが可能な文書データ分類システム、文書データ分類方法及びプログラムを提供することが可能となる。
【図面の簡単な説明】
【0015】
図1図1は、本発明の第1実施形態である文書データ分類システム1の概要を説明するための図である。
図2図2は、本発明の第1実施形態である文書データ分類システム1の構成図である。
図3図3は、本発明の第1実施形態におけるコンピュータ2が実行するデータブロック化分類処理のフローチャートである。
図4図4は、本発明の第2実施形態である文書データ分類システム1の概要を説明するための図である。
図5図5は、本発明の第2実施形態である文書データ分類システム1の構成図である。
図6図6は、本発明の第2実施形態におけるコンピュータ2が実行するラベリング処理のフローチャートである。
【発明を実施するための形態】
【0016】
以下、本発明を実施するための最良の形態について図を参照しながら説明する。なお、これはあくまでも一例であって、本発明の技術的範囲はこれに限られるものではない。
【0017】
[第1実施形態の概要]
本発明の第1実施形態について、図1に基づいて説明する。図1は、第1実施形態の文書データ分類システム1の概要を説明するための図である。文書データ分類システム1は、コンピュータ2から構成され、文書データの分類に利用するためコンピュータシステムである。
【0018】
文書データ分類システム1のコンピュータ2は、例えば、デスクトップパソコンやノートパソコンやサーバ等のコンピュータ、スマートフォンやタブレット端末等の携帯端末、スマートグラス等のヘッドマウントディスプレイやスマートウォッチといったウェアラブル端末等である。
【0019】
また、文書データ分類システム1のコンピュータ2は、例えば、1台の端末装置で実現されてもよいし、複数の端末装置で実現されてもよいし、クラウドコンピュータのように仮想的な装置で実現されてもよい。
【0020】
また、文書データ分類システム1は、コンピュータ2の代わりに、上述した端末装置から構成されてもよい。
【0021】
コンピュータ2は、上述した端末装置、その他の端末や装置類等と、公衆回線網等を介して、データ通信可能に接続し、必要なデータや情報の送受信を実行してもよい。
【0022】
コンピュータ2は、ドキュメントフォーマットからデータを抽出する(ステップS11)。例えば、コンピュータ2は、取得しておいたドキュメントフォーマットからデータを抽出する。ドキュメントフォーマットは、コンピュータ2に予め取得されているものとし、取得方法については特に限定することなく、他の端末装置から公衆回線等を介して取得してもよい。また、ドキュメントフォーマットの取得は文書データを抽出する前であれば、タイミングについては限定されない。
【0023】
なお、ドキュメントフォーマットとは、電子文書ファイルのことであり、例えば、PDF、Word、PEG、PNG、GIFなどのデータから構成されるあらゆる画像などのファイル形式のものを含むが、これに限定されない。
【0024】
抽出するデータは、ドキュメントフォーマットを構成する文書要素であり、例えば、画像オブジェクト、表オブジェクト、テキストオブジェクトなどの要素を含むが、これに限定されない。
【0025】
データの抽出方法は、特に限定されず、例えば、機械学習によるルールベースやモデルベースを利用してデータを抽出してもよいし、人手による例えばカットアンドペーストなどの方法や、アノテーションツールといったタグ付け自動化ツールを使用する方法などでデータを抽出してもよい。
【0026】
コンピュータ2は、抽出したデータにアノテーションデータを付与して第1学習モデル100を作成する(ステップS12)。このとき抽出されるデータは、機械学習用データである。アノテーションデータとは、機械学習のモデルに学習させるための教師データであり、データに意味付けや紐付けをして互いに組み合わせるために、抽出したデータに関連する情報として抽出したデータに付与される。本実施形態では、電子文書を構成化するための文書要素の種類(画像、表、テキストなど)や配置情報(サイズや座標など)がアノテーションデータとして抽出したデータが付与される。
【0027】
アノテーションデータを付与した抽出したデータは、第1学習モデル100として機械学習される。第1学習モデル100とは、抽出したデータをブロック化して分類する学習モデルであり、後述の処理は、第1学習モデル100に基づいて実行される。
【0028】
コンピュータ2は、第1学習モデル100に基づいて、抽出したデータを解析し、ブロックデータとしてブロック化する(ステップS13)。このとき抽出されるデータは、分類対象となる文書要素である。本願明細書で言う「ブロック化」とは、電子文書を構成化に必要な文書要素に配置情報を関連付けてブロックデータを生成することである。抽出したデータについては、第1学習モデル100に基づいて、文書要素として電子文書内での配置やサイズを示す配置情報をセグメンテーション情報として予測してもよい。
【0029】
コンピュータ2は、第1学習モデル100に基づいて、ブロックデータをデータ種別毎に分類する(ステップS14)。具体的には、生成したブロックデータを文書要素の種類毎に分類する。
【0030】
分類したブロックデータは、コンピュータ2の内部に格納してもよいし、コンピュータ2の外部に格納してもよいし、通信可能に接続された端末装置、上述した端末装置、その他の端末や装置類等に送信してもよい。
【0031】
このように、ドキュメントフォーマットから抽出したデータを、複数のブロックデータをデータ種類に応じて電子文書に最適に配置して構成化するために、学習済みデータ用いることによって、人手によらずに解析してブロック化して分類することができる。これにより、構成化されていない電子文書を構成化できるため、元の電子文書よりも可用性の高い電子文書への変換が可能である。また、紙文書時代で培われた文書構成については、機械学習させることによって、電子文書の構成化に活用することが可能である。
【0032】
以上が、文書データ分類システム1が実行する処理の概要である。
【0033】
[文書データ分類システム1のシステム構成]
図2に基づいて、本発明の第1実施形態である文書データ分類システム1のシステム構成について説明する。図2は、第1実施形態の実施形態である文書データ分類システム1のシステム構成を示す図である。図2において、文書データ分類システム1は、コンピュータ2から構成され、文書データの分類に利用するためのコンピュータシステムである。
【0034】
なお、文書データ分類システム1は、その他の端末や装置類等が含まれていてもよい。例えば、ユーザ毎に別のコンピュータ2を利用してもよく、この場合、文書データ分類システム1は、後述する各処理を、コンピュータ2と、その他の含まれる端末や装置類等との何れか又は複数の組合せにより実行することになる。
【0035】
また、文書データ分類システム1のコンピュータ2は、例えば、1台の端末装置で実現されてもよいし、複数の端末装置で実現されてもよいし、クラウドコンピュータのように仮想的な装置で実現されてもよい。
【0036】
コンピュータ2は、例えば、デスクトップパソコンやノートパソコンやサーバ等のコンピュータ、スマートフォンやタブレット端末等の携帯端末、スマートグラス等のヘッドマウントディスプレイやスマートウォッチといったウェアラブル端末等である。
【0037】
コンピュータ2は、制御部210として、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)等を備える。制御部210は、入力部220、記憶部240と協働してデータ抽出モジュール221を実現する。また、制御部210は、入力部220、記憶部240と協働して第1学習モデル作成モジュール222を実現する。また、制御部210は、記憶部240と協働して、データブロック化モジュール223、データ分類モジュール224を実現する。
【0038】
コンピュータ2は、入力部220として、コンピュータ2を操作するために必要な機能を備えるものとする。入力を実現するための例として、タッチパネル機能を実現する液晶ディスプレイ、キーボード、マウス、ペンタブレット、装置上のハードウェアボタン、音声認識を行うためのマイク等を備えることが可能である。入力方法により、本発明は特に機能を限定されるものではない。
【0039】
コンピュータ2は、記憶部240として、ハードディスクや半導体メモリ、記録媒体、メモリカード等によるデータのストレージを備える。データの保存先は、クラウドサービスやデータベース等であってもよい。
【0040】
[データブロック化分類処理]
図3に基づいて、文書データ分類システム1が実行するデータブロック化分類処理について説明する。図3は、文書データ分類システム1が実行するデータブロック化分類処理のフローチャートを示す図である。上述した各モジュールが実行する処理について、本処理に併せて説明する。
【0041】
コンピュータ2のデータ抽出モジュール221は、ドキュメントフォーマットからデータを抽出する(ステップS110)。例えば、データ抽出モジュール221は、取得しておいたドキュメントフォーマットからデータを抽出する。ドキュメントフォーマットは、コンピュータ2の記憶部240に予め取得されているものとし、取得方法については特に限定することなく、他の端末装置から公衆回線等を介して取得してもよい。また、ドキュメントフォーマットの取得は文書データを抽出する前であれば、タイミングについては限定されない。
【0042】
なお、ドキュメントフォーマットとは、電子文書ファイルのことであり、例えば、PDF、Word、PEG、PNG、GIFなどのデータから構成されるあらゆる画像などのファイル形式のものを含むが、これに限定されない。
【0043】
抽出するデータは、ドキュメントフォーマットを構成する文書要素であり、例えば、画像オブジェクト、表オブジェクト、テキストオブジェクトなどの要素を含むが、これに限定されない。
【0044】
データの抽出方法は、特に限定されず、例えば、機械学習によるルールベースやモデルベースを利用してデータを抽出してもよいし、人手による例えばカットアンドペーストなどの方法や、アノテーションツールといったタグ付け自動化ツールを使用する方法などでデータを抽出してもよい。
【0045】
コンピュータ2の第1学習モデル作成モジュール222は、抽出したデータにアノテーションデータを付与して第1学習モデル100を作成する(ステップS120)。このとき抽出されるデータは、機械学習用データである。アノテーションデータとは、機械学習のモデルに学習させるための教師データであり、データに意味付けや紐付けをして互いに組み合わせるために、抽出したデータに関連する情報として抽出したデータに付与される。本実施形態では、電子文書を構成化するための文書要素の種類(画像、表、テキストなど)やサイズ情報(サイズや座標など)がアノテーションデータとして抽出したデータが付与される。
【0046】
アノテーションデータを付与した抽出したデータは、第1学習モデル100として機械学習される。第1学習モデル100とは、抽出したデータをブロック化して分類する学習モデルであり、後述の処理は、第1学習モデル100に基づいて実行される。
【0047】
コンピュータ2のデータブロック化モジュール223は、第1学習モデル100に基づいて、抽出したデータを解析し、ブロックデータとしてブロック化する(ステップS130)。このとき抽出されるデータは、分類対象となる文書要素である。本願明細書で言う、ブロック化とは、電子文書を構成化に必要な文書要素に配置情報を関連付けてブロックデータを生成することである。抽出したデータについては、第1学習モデル100に基づいて、文書要素として電子文書内での配置やサイズを示す配置情報をセグメンテーションデータとして予測してもよい。
【0048】
コンピュータ2のデータ分類モジュール224は、第1学習モデル100に基づいて、ブロックデータをデータ種別毎に分類する(ステップS140)。具体的には、生成したブロックデータを文書要素の種類(画像、表、テキストなど)毎に分類する。
【0049】
分類したブロックデータは、コンピュータ2の記憶部240に格納してもよいし、コンピュータ2の外部に格納してもよいし、通信可能に接続された端末装置、上述した端末装置、その他の端末や装置類等に送信してもよい。
【0050】
このように、ドキュメントフォーマットから抽出したデータを、複数のブロックデータをデータ種類に応じて電子文書に最適に配置して構成化するために、学習済みデータ用いることによって、人手によらずに解析してブロック化して分類することができる。これにより、構成化されていない電子文書を構成化できるため、元の電子文書よりも可用性の高い電子文書への変換が可能である。また、紙文書時代で培われた文書構成については、機械学習させることによって、電子文書の構成化に活用することが可能である。
【0051】
以上が、データブロック化分類処理である。
【0052】
[第2実施形態の概要]
本発明の第2実施形態について、図4に基づいて説明する。図4は、本発明の第2実施形態の文書データ分類システム1の概要を説明するための図である。なお、第1実施形態と同一の機能および構成については同一の符号を付し、説明を省略する。本実施形態が第1実施形態と異なるのは、さらに第2学習モデルを生成し、第2学習モデルに基づいて、ブロックデータの内容を解析し、解析結果に基づいてラベルを割り当てるという点である。
【0053】
文書データ分類システム1のコンピュータ2は、第1実施形態同様、例えば、デスクトップパソコンやノートパソコンやサーバ等のコンピュータ、スマートフォンやタブレット端末等の携帯端末、スマートグラス等のヘッドマウントディスプレイやスマートウォッチといったウェアラブル端末等である。
【0054】
また、文書データ分類システム1のコンピュータ2は、第1実施形態同様、例えば、1台の端末装置で実現されてもよいし、複数の端末装置で実現されてもよいし、クラウドコンピュータのように仮想的な装置で実現されてもよい。
【0055】
また、文書データ分類システム1は、第1実施形態同様、コンピュータ2の代わりに、上述した端末装置から構成されてもよい。
【0056】
コンピュータ2は、第1実施形態同様、上述した端末装置、その他の端末や装置類等と、公衆回線網等を介して、データ通信可能に接続されており、必要なデータや情報の送受信を実行する。
【0057】
コンピュータ2は、ドキュメントフォーマットからデータを抽出する(ステップS21)。ステップS21は実施形態1のステップS11と同様の処理である。
【0058】
コンピュータ2は、抽出したデータにアノテーションデータを付与して第1学習モデル100を作成する(ステップS22)。ステップS22は実施形態1のステップS12と同様の処理である。
【0059】
コンピュータ2は、第1学習モデル100に基づいて、抽出したデータを解析し、ブロックデータとしてブロック化する(ステップS23)。ステップS23は実施形態1のステップS13と同様の処理である。
【0060】
コンピュータ2は、第1学習モデル100に基づいて、ブロックデータをデータ種別毎に分類する(ステップS24)。ステップS24は実施形態1のステップS14と同様の処理である。
【0061】
コンピュータ2は、分類したブロックデータにアノテーションデータを付与して第2学習モデル200を作成する(ステップS25)。このとき分類したブロックデータは、機械学習用データである。アノテーションデータとは、機械学習のモデルに学習させるための教師データであり、データに意味付けや紐付けをして互いに組み合わせるために、分類したブロックデータに関連する情報としてブロックデータに付与される。本実施形態では、分類したブロックデータをさらに細分化して解析した結果がアノテーションデータとして抽出したデータが付与される。
【0062】
このブロックデータは、機械学習用データであり、文書要素がテキストや表で分類されたデータであり、画像の場合は含めない。画像は、機械学習によらずに、手段や方法を問わない画像解析によって、データの意味付けや紐付けが実現できるからである。
【0063】
分類したブロックデータの文書要素がテキストである場合、内容を解析し、例えば、タイトル、章や節を検出して細分化する。また、分類したブロックデータの文書要素が表である場合も同様に、内容を解析し、表タイトルを検出して細分化する。
【0064】
コンピュータ2は、第2学習モデル200に基づいて、分類したブロックデータにラベルを割り当てる(ステップS26)。このとき分類したブロックデータは、ラベル割り当ての対象となるテキストや表などの文書要素であり、画像は含めない。上にも述べたが、画像は、機械学習によらずに、手段や方法を問わない画像解析によって、データの意味付けや紐付けが実現できるからである。本願明細書で言う「ラベル」とは、例えば、分類したブロックデータがテキストである場合は、タイトル、章や節などの文書要素を細分化したものであり、分類したブロックデータの文書要素が表である場合は、表タイトルなどの文書要素を細分化したものである。
【0065】
ラベルを割り付けたブロックデータは、コンピュータ2の内部に格納してもよいし、コンピュータ2の外部に格納してもよいし、通信可能に接続された端末装置、上述した端末装置、その他の端末や装置類等に送信してもよい。
【0066】
このように、分類したブロックデータの内容を解析し、解析結果をアノテーションデータとして付与して第2学習モデルを作成し、第2学習モデルに基づいて、ラベルを割り当てることから、分類したブロックデータの解析内容をラベルによって把握することができ、ラベルに基づいて、ユーザが指定したキーワードに合致する文書を検索することが可能である。
【0067】
以上が、文書データ分類システム1が実行する処理の概要である。
【0068】
[文書データ分類システム1のシステム構成]
図5に基づいて、本発明の第1実施形態である文書データ分類システム1のシステム構成について説明する。図5は、第1実施形態の実施形態である文書データ分類システム1のシステム構成を示す図である。図5において、文書データ分類システム1は、コンピュータ2から構成され、文書データの分類に利用するためのコンピュータシステムである。
【0069】
なお、文書データ分類システム1は、第1実施形態同様に、その他の端末や装置類等が含まれていてもよい。例えば、ユーザ毎に別のコンピュータ2を利用してもよく、この場合、文書データ分類システム1は、後述する各処理を、コンピュータ2と、その他の含まれる端末や装置類等との何れか又は複数の組合せにより実行することになる。
【0070】
また、文書データ分類システム1のコンピュータ2は、第1実施形態同様に、例えば、1台の端末装置で実現されてもよいし、複数の端末装置で実現されてもよいし、クラウドコンピュータのように仮想的な装置で実現されてもよい。
【0071】
コンピュータ2は、第1実施形態同様に、例えば、デスクトップパソコンやノートパソコンやサーバ等のコンピュータ、スマートフォンやタブレット端末等の携帯端末、スマートグラス等のヘッドマウントディスプレイやスマートウォッチといったウェアラブル端末等である。
【0072】
コンピュータ2は、制御部210として、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、RAM(Random Access Memory)、ROM(Read Only Memory)等を備える。制御部210は、入力部220、記憶部240と協働してデータ抽出モジュール221を実現する。また、制御部210は、入力部220、記憶部240と協働して第1学習モデル作成モジュール222を実現する。また、制御部210は、記憶部240と協働して、データブロック化モジュール223、データ分類モジュール224、ラベリングモジュール226を実現する。
【0073】
コンピュータ2は、第1実施形態同様に、入力部220として、コンピュータ2を操作するために必要な機能を備えるものとする。入力を実現するための例として、タッチパネル機能を実現する液晶ディスプレイ、キーボード、マウス、ペンタブレット、装置上のハードウェアボタン、音声認識を行うためのマイク等を備えることが可能である。入力方法により、本発明は特に機能を限定されるものではない。
【0074】
コンピュータ2は、第1実施形態同様に、記憶部240として、ハードディスクや半導体メモリ、記録媒体、メモリカード等によるデータのストレージを備える。データの保存先は、クラウドサービスやデータベース等であってもよい。
【0075】
[データブロック化分類処理]
データブロック化分類処理は、第1実施形態と同様の処理であるため、その説明を省略する。
【0076】
[ラベリング処理]
【0077】
コンピュータ2は、分類したブロックデータにアノテーションデータを付与して第2学習モデル200を作成する(ステップS250)。このとき分類したブロックデータは、機械学習用データである。アノテーションデータとは、機械学習のモデルに学習させるための教師データであり、データに意味付けや紐付けをして互いに組み合わせるために、分類したブロックデータに関連する情報としてブロックデータに付与される。本実施形態では、分類したブロックデータをさらに細分化して解析した結果がアノテーションデータとして抽出したデータが付与される。
【0078】
このブロックデータは、機械学習用データであり、文書要素がテキストや表で分類されたデータであり、画像の場合は含めない。画像は、機械学習によらずに、手段や方法を問わない画像解析によって、データの意味付けや紐付けが実現できるからである。
【0079】
分類したブロックデータの文書要素がテキストである場合、内容を解析し、例えば、タイトル、章や節を検出して細分化する。また、分類したブロックデータの文書要素が表である場合も同様に、内容を解析し、表タイトルを検出して細分化する。
【0080】
コンピュータ2は、第2学習モデル200に基づいて、分類したブロックデータにラベルを割り当てる(ステップS260)。このとき分類したブロックデータは、ラベル割り当ての対象となるテキストや表などの文書要素であり、画像は含めない。上にも述べたが、画像は、機械学習によらずに、手段や方法を問わない画像解析によって、データの意味付けや紐付けが実現できるからである。本願明細書で言う「ラベル」とは、例えば、分類したブロックデータがテキストである場合は、タイトル、章や節などの文書要素を細分化したものであり、分類したブロックデータの文書要素が表である場合は、表タイトルなどの文書要素を細分化したものである。
【0081】
ラベルを割り付けたブロックデータは、コンピュータ2の内部に格納してもよいし、コンピュータ2の外部に格納してもよいし、通信可能に接続された端末装置、上述した端末装置、その他の端末や装置類等に送信してもよい。
【0082】
このように、分類したブロックデータの内容を解析し、解析結果をアノテーションデータとして付与して第2学習モデルを作成し、第2学習モデルに基づいて、ラベルを割り当てることから、分類したブロックデータの解析内容をラベルによって把握することができ、ラベルに基づいて、ユーザが指定したキーワードに合致する文書を検索することが可能である。
【0083】
以上が、ラベリング処理である。
【0084】
上述した手段、機能は、コンピュータ(CPU、情報処理装置、各種端末を含む)が、所定のプログラムを読み込んで、実行することによって実現される。プログラムは、例えば、単数又は複数のコンピュータからネットワーク経由で提供される(クラウドサービス、SaaS:ソフトウェア・アズ・ア・サービス)形態で提供される。また、プログラムは、例えば、コンピュータ読取可能な記録媒体に記録された形態で提供される。この場合、コンピュータはその記録媒体からプログラムを読み取って内部記録装置又は外部記録装置に転送し記録して実行する。また、そのプログラムを、例えば、磁気ディスク、光ディスク、光磁気ディスク等の記録装置(記録媒体)に予め記録しておき、その記録装置から通信回線を介してコンピュータに提供するようにしてもよい。
【0085】
以上、本発明の実施形態について説明したが、本発明は上述したこれらの実施形態に限るものではない。また、本発明の実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本発明の実施形態に記載されたものに限定されるものではない。
【符号の説明】
【0086】
1 文書データ分類システム、2 コンピュータ
【要約】
【課題】多岐のドキュメントフォーマットで作成された電子文書の内容を人手によらずに解析して分類することを可能とする。
【解決手段】文書データ分類システム1は、抽出したデータにアノテーションデータを付与して第1学習モデルを作成する第1学習モデル作成モジュールと、第1学習モデルに基づいて、抽出したデータをブロックデータとしてブロック化するデータブロック化モジュールと、前記ブロックデータをデータ種別毎に分類するデータ分類モジュールとを備える。
【選択図】図2

図1
図2
図3
図4
図5
図6