(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024111370
(43)【公開日】2024-08-19
(54)【発明の名称】文書分類装置、文書分類方法及びプログラム
(51)【国際特許分類】
G06F 16/35 20190101AFI20240809BHJP
G06F 16/387 20190101ALI20240809BHJP
【FI】
G06F16/35
G06F16/387
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023015799
(22)【出願日】2023-02-06
(71)【出願人】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】110000442
【氏名又は名称】弁理士法人武和国際特許事務所
(72)【発明者】
【氏名】井腰 三四郎
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175DA03
5B175FA03
(57)【要約】 (修正有)
【課題】文書に含まれる単語を用いて複数の文書を分類する場合、効率的な文書の分類を実現させる文書分類装置、文書分類方法及びプログラムを提供する。
【解決手段】文書分類装置及び通信端末が、通信ネットワークを介してそれぞれ互いに接続されている文書分類システムにおいて、文書分類装置は、自装置に関連付けられた分類実施地域を示す分類実施地域名と、複数の文書の各々に含まれる単語に関連付けられた検索結果地域を示す検索結果地域名と、を特定し(ステップS12)、複数の文書のうち、特定された分類実施地域名と、特定された検索結果地域名と、に基づいて分類を行う(ステップS14)。
【選択図】
図10
【特許請求の範囲】
【請求項1】
文書に含まれる単語を用いて前記文書を分類する文書分類装置であって、
前記文書分類装置に関連付けられた分類実施地域を示す分類実施地域名と、複数の文書の各々に含まれる単語に関連付けられた検索結果地域を示す検索結果地域名と、を特定する特定手段と、
前記複数の文書のうち、特定された前記分類実施地域名と、特定された前記検索結果地域名と、に基づいて分類を行う分類手段と、
を有する、
ことを特徴とする文書分類装置。
【請求項2】
前記特定手段は、
所定のAPI(Application Programming Interface)を用いて使用されるIPアドレスによる検索、又は、前記IPアドレスと各分類実施地域名とが関連付けられた分類実施地域名管理手段で管理されている情報を検索することにより、前記分類実施地域名を特定する、
ことを特徴とする請求項1に記載の文書分類装置。
【請求項3】
前記特定手段は、
前記分類実施地域名に対応するIPアドレスと、前記複数の文書の各々に含まれる地域関連単語とが関連付けられた検索結果地域名管理手段を検索することにより、前記検索結果地域名を特定する、
ことを特徴とする請求項2に記載の文書分類装置。
【請求項4】
請求項1乃至3のいずれか一項に記載の文書分類装置であって、更に、
特定された前記分類実施地域名及び前記検索結果地域名の少なくとも一方に基づいて、前記文書を分類するための単語を選別する選別手段、
を有する、
ことを特徴とする文書分類装置。
【請求項5】
前記選別手段は、
特定された地域名に関連付けられた地域辞書管理手段、及び前記複数の文書の各々に含まれる単語に関連付けられた汎用辞書管理手段を検索することにより、前記単語を選別する、
ことを特徴とする請求項4に記載の文書分類装置。
【請求項6】
前記分類手段は、
前記選別手段により選別された前記単語の類似度を算出することにより、前記予め選別された文書を分類する、
ことを特徴とする請求項5に記載の文書分類装置。
【請求項7】
前記分類手段は、
自然言語をベクトル表現するtf-idf(term frequency-inverse document frequency)で算出された特徴ベクトルのコサイン類似度に対して、類似度が最も高い前記予め選別された文書の種別を分類する、
ことを特徴とする請求項6に記載の文書分類装置。
【請求項8】
前記単語は、前記複数の文書の各々に含まれるテキストデータに対して行われる形態素解析から得られた文字例に基づいて抽出される、
ことを特徴とする請求項1乃至3のいずれか一項に記載の文書分類装置。
【請求項9】
文書に含まれる単語を用いて前記文書を分類する文書分類装置が実行する文書分類方法であって、
前記文書分類装置に関連付けられた分類実施地域を示す分類実施地域名と、複数の文書の各々に含まれる単語に関連付けられた検索結果地域を示す検索結果地域名と、を特定する特定ステップと、
前記複数の文書のうち、特定された前記分類実施地域名と、特定された前記検索結果地域名と、に基づいて分類を行う分類ステップと、
を実行する、
ことを特徴とする文書分類方法。
【請求項10】
文書に含まれる単語を用いて前記文書を分類する文書分類装置に、
前記文書分類装置に関連付けられた分類実施地域を示す分類実施地域名と、複数の文書の各々に含まれる単語に関連付けられた検索結果地域を示す検索結果地域名と、を特定する特定ステップと、
前記複数の文書のうち、特定された前記分類実施地域名と、特定された前記検索結果地域名と、に基づいて分類を行う分類ステップと、
を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書分類装置、文書分類方法及びプログラムに関する。
【背景技術】
【0002】
文書中に存在する単語を用いて文書を分類する際に、分類する文書種類に応じてその文書の特徴量を示すデータを用意して類似度を算出し、文書の分類を行う技術が普及している。
【0003】
例えば、クラスが未知のテキスト文書を分類する際に、単語と各クラスとの関連性を求めることで分類精度を向上させる技術が知られている(例えば、特許文献1参照)。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来の技術では、文書に含まれる単語を用いて複数の文書を分類する場合、分類するために参照するデータの量が多くなり、その結果文書の分類における効率を低下させてしまう、という課題がある。
【課題を解決するための手段】
【0005】
上述した課題を解決するために、請求項1に係る発明は、文書に含まれる単語を用いて前記文書を分類する文書分類装置であって、前記文書分類装置に関連付けられた分類実施地域を示す分類実施地域名と、複数の文書の各々に含まれる単語に関連付けられた検索結果地域を示す検索結果地域名と、を特定する特定手段と、前記複数の文書のうち、特定された前記分類実施地域名と、特定された前記検索結果地域名と、に基づいて分類を行う分類手段と、を有する、ことを特徴とする文書分類装置を提供する。
【発明の効果】
【0006】
以上説明したように本発明によれば、文書に含まれる単語を用いて複数の文書を分類する場合、効率的な文書の分類を実現させることが可能になる、という効果を奏する。
【図面の簡単な説明】
【0007】
【
図1】実施形態に係る文書分類装置の一例を示す図である。
【
図2】実施形態に係るデータ構造の一例を示す概念図である。
【
図3】実施形態に係る文書分類装置のハードウエア構成の一例を示す図である。
【
図4】実施形態に係る文書分類装置の機能構成の一例を示す図である。
【
図5】実施形態に係る形態素解析管理テーブルの一例を示す概念図である。
【
図6】実施形態に係る分類実施地域名管理テーブルの一例を示す概念図である。
【
図7】実施形態に係る検索結果地域名管理テーブルの一例を示す概念図である。
【
図8】実施形態に係る地域辞書管理テーブルの一例を示す概念図である。
【
図9】実施形態に係る汎用辞書管理テーブルの一例を示す概念図である。
【
図10】実施形態に係る分類対象文書に対する全体処理の一例を示すフローチャートである。
【
図11】実施形態に係る分類対象文書に対する検索特定部による特定処理の一例を示すフローチャートである。
【
図12】実施形態に係る分類対象文書に対する選別部による選別処理の一例を示すフローチャートである。
【
図13】実施形態に係る文書分類装置における文書分類結果の表示画面の一例を示す図である。
【
図14】実施形態に係る文書分類結果の一例を示す図である。
【
図15】第2の実施形態に係る文書分類システムの全体構成の一例を示す図である。
【発明を実施するための形態】
【0008】
以下、図面を用いて、発明を実施するための形態について説明する。なお、図面の説明において同一要素には同一符号を付し、重複する部分があればその説明を省略する。
【0009】
〔第1の実施形態〕
<文書分類装置>
まず、文書分類装置の構成について説明する。
図1は、実施形態に係る文書分類装置の
構成の一例を示す図である。
図1に示されているように、文書分類装置2は、例えば、複数の機能を搭載したMFP(Multifunction Peripheral)である。また、文書分類装置2は、文書を光学的に読み取るOCR(Optical Character Recognition)機能を利用して、分類対象となる複数の文書を分類する。但し、文書分類装置2は、文書を読み取る読取り機能(スキャン機能)、又は入力される文書情報を一時的に記憶装置等に記憶させる機能を有する装置であれば、MFPに限られない。そのため、文書分類装置2は、例えば、文書を読み取る読取り機能(スキャン機能)を単体で有するスキャナ等であってもよい。文書分類装置2は更に、公衆回線を利用して通信を行い、入力される文書を一時的に記憶手段に記憶させるファクシミリ機能を単体で有するファクシミリ装置等であってもよい。
【0010】
文書分類装置2は、一般的なサーバOSなどが搭載された一以上の情報処理装置(コンピュータシステム)によって実現され、文書分類システム1を構築する一つの構成要素である。また、文書分類装置2は、他の装置、通信端末と通信を行うための通信アプリを記憶手段にインストールして記憶している。
【0011】
上述したように、従来の方法では、文書を分類する際に、文書に含まれる単語の特徴量を示すデータが一括で保存されていると、用意されているデータすべてに対して類似度を求める必要が生じてしまう。その結果、特徴量を示すデータの増加に比例して類似度を求める際の時間が増加し、その結果文書の分類における効率を低下させてしまう、という課題がある。
【0012】
そこで本実施形態では、文書に含まれる単語を用いて複数の文書を分類する場合、分類対象となる文書の量が増加した場合でも、効率的な文書の分類を実現させることを可能にする文書分類装置を提供する。
【0013】
●用語について●
本実施形態において「地域」とは、例えば、日本国内の都道府県をいう。但し、分類される文書に応じてより詳細な文書の分類を実現するために、「地域」を都道府県から市町村、若しくはそれよりも小さな(細かい)自治体(例えば「区」)まで広げてもかまわない。
【0014】
また、本実施形態においてユーザとは、文書分類装置2又は通信端末3を利用する利用者、管理者等をいう。
【0015】
〔文書に含まれる単語に係るデータ構〕
次に、実施形態に係るデータ構造について説明する。
図2は、実施形態に係るデータ構造の一例を示す概念図である。この概念図は、オープンソースの形態素解析(Morphological Analysis)エンジンとして知られている「MeCab」を利用するための専用のフォーマットの一例である。最初の「契約書」が、文書中のヘッダとなる。但し、本実施形態において分類対象となる文書に含まれる単語に基づいて文書を分類することが可能であれば、他のデータフォーマットを用いてもよい。これにより、本実施形態において、単語は、複数の文書の各々に含まれるテキストデータに対して行われる上述した形態素解析から得られた文字例に基づいて抽出される。
【0016】
〔ハードウエア構成〕
続いて、
図3を用いて、実施形態に係る文書分類装置のハードウエア構成について説明する。なお、
図3に示されている文書分類装置のハードウエア構成は、必要に応じて構成要素が追加又は削除されてもよい。
【0017】
<文書分類装置のハードウエア構成>
図3は、実施形態に係る文書分類装置のハードウエア構成の一例を示す図である。文書分類装置2は、コンピュータによって構築されており、例えばMFPである。
図2に示されているように、文書分類装置2は、コントローラ210、外部機器接続I/F225、エンジン制御部230、操作パネル240、ネットワークI/F250を含むハードウエア資源を備えている。
【0018】
これらのうち、コントローラ210は、コンピュータの主要部であるCPU201、システムメモリ(MEM-P)202、ノースブリッジ(NB)203、サウスブリッジ(SB)204、ASIC(Application Specific Integrated Circuit)205、記憶部であるローカルメモリ(MEM-C)206、HDD(Hard Disk Drive)コントローラ207及び記憶部であるHD(Hard Disk)208を有し、NB203とASIC205との間をAGP(Accelerated Graphics Port)バス221で接続した構成となっている。
【0019】
これらのうち、CPU201は、文書分類装置2の全体制御を行う制御部である。NB203は、CPU201と、MEM-P202、SB204及びAGPバス221とを接続するためのブリッジであり、MEM-P202に対する読み書きなどを制御するメモリコントローラと、PCI(Peripheral Component Interconnect)マスタ及びAGPターゲットとを有する。
【0020】
MEM-P202は、コントローラ210の各機能を実現させるプログラムやデータの格納用メモリであるROM202a、プログラムやデータの展開、及びメモリ印刷時の描画用メモリなどとして用いるRAM202bとからなる。なお、RAM202bに記憶されているプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM、CD-R、DVD等のコンピュータで読取り可能な記録媒体に記録して提供されるようにしてもよい。
【0021】
SB204は、NB203とPCIデバイス及び周辺デバイスとを接続するためのブリッジである。ASIC205は、画像処理用のハードウエア要素を有する画像処理用途向けのIC(Integrated Circuit)であり、AGPバス221、PCIバス222、HD208及びMEM-C206をそれぞれ接続するブリッジの役割を有する。このASIC205は、PCIターゲット及びAGPマスタ、ASIC205において所定の優先順位に従って各信号の駆動タイミングの調停を行うアービタ(Arbiter)、MEM-C206を制御するメモリコントローラ、ハードウエアロジックなどにより画像データの回転などを行う複数のDMAC(Direct Memory Access Controller)、並びに、後述するスキャナ部231及びプリンタ部232との間でPCIバス222を介したデータ転送を行うPCIユニットを含む。なお、ASIC205には、USBインターフェイスや、IEEE1394(Institute of Electrical and Electronics Engineers 1394)のインターフェイスが接続されるようにしてもよい。
【0022】
MEM-C206は、コピー用画像バッファ及び符号バッファとして用いるローカルメモリである。HD208は、画像データの蓄積、印刷時に用いるフォントデータの蓄積、フォームの蓄積を行うためのストレージである。HD208は、CPU201の制御にしたがってHD208に対するデータの読出し又は書込みを制御する。AGPバス221は、グラフィック処理を高速化するために提案されたグラフィックスアクセラレータカード用のバスインターフェイスであり、MEM-P202に高スループットで直接アクセスすることにより、グラフィックスアクセラレータカードを高速にすることができる。
【0023】
外部機器接続I/F225は、通信端末3と接続するためのインターフェイスであり、例えば、USBインターフェイスである。
【0024】
なお、文書分類装置2は近距離通信回路用アンテナを有する近距離通信回路を備えていてもよい。近距離通信回路は、例えば、NFC、Bluetooth(登録商標。以下省略)、Wi-Fi(登録商標。以下省略)等の通信回路である。
【0025】
更に、エンジン制御部230は、スキャナ部231、プリンタ部232及びFAX部233によって構成されている。また、操作パネル240は、現在の設定値や選択画面等を表示させ、操作者からの入力を受け付けるタッチパネル等のパネル表示部240a、並びに、濃度の設定条件などの画像形成に係る条件の設定値を受け付けるテンキー、及びコピー開始指示を受け付けるスタートキー等を含む操作キー240bを備えている。本実施形態において、パネル表示部240aは表示手段の一例として機能する。コントローラ210は、文書分類装置2全体の制御を行い、例えば、描画、通信、操作パネル240からの入力等を制御する。スキャナ部231又はプリンタ部232には、誤差拡散やガンマ(γ)変換などの画像処理部分が含まれている。また、FAX部233には、外部装置との間をつなぐアナログ回線(公衆回線)を利用してファクシミリ通信を行なうためのアナログI/F、モデム(MODEM)、スピーカ等が含まれる。
【0026】
なお、文書分類装置2は、操作パネル240のアプリケーション切り替えキーにより、ドキュメントボックス機能、コピー機能、プリンタ機能及びファクシミリ機能を順次に切り替えて選択することが可能となる。ドキュメントボックス機能の選択時にはドキュメントボックスモードとなり、コピー機能の選択時にはコピーモードとなり、プリンタ機能の選択時にはプリンタモードとなり、ファクシミリモードの選択時にはファクシミリモードとなる。
【0027】
また、ネットワークI/F250は、通信ネットワーク100を利用してデータ通信をするためのインターフェイスである。外部機器接続I/F225及びネットワークI/F250は、PCIバス222を介して、ASIC205に電気的に接続されている。
【0028】
なお、上述したプログラムは、インストール可能な形式又は実行可能な形式のファイルで、コンピュータで読取り可能な記録媒体に記録、又はネットワークを介してダウンロードを行い流通させるようにしてもよい。記録媒体の例として、CD-R(Compact Disc Recordable)、DVD(Digital Versatile Disk)、Blu-ray Disc(Blu-rayは登録商標。以下省略)、SDカード、USBメモリ等が挙げられる。また、記録媒体は、プログラム製品(Program Product)として、国内又は国外へ提供されることができる。例えば、文書分類装置2は、本発明に係るプログラムが実行されることで、本発明に係る文書分類方法を実現する。
【0029】
〔機能構成〕
次に、
図4乃至
図9を用いて、本実施形態の機能構成について説明する。
図4は、実施形態に係る文書分類装置の機能構成の一例を示す図である。なお、
図4は、
図1に示されている文書分類装置2のうち、後述する処理又は動作に関連するものを示す。
【0030】
<文書分類装置の機能構成>
図4に示されているように、文書分類装置2は、送受信部21、受付抽出部22、検索特定部23、表示制御部24、選別部25、算出分類部26、生成部27、実行制御部28及び記憶読出部29を有する。これら各機能部は、
図3に示された各ハードウエア資源のいずれかが、ROM202a及びHD208のうち少なくとも一つからRAM202bに展開された文書分類装置2用のプログラムに従ったCPU201からの命令により動作することで実現される機能又は手段である。また、文書分類装置2は、
図3に示されているROM202a及びHD208のうち少なくとも一つにより構築される記憶部2000を有している。更に、記憶部2000には、他の装置、通信端末と通信ネットワーク又は有線ケーブルを介して通信を行うための通信プログラム(通信アプリ)、各種機能を実行するためのアプリ、ブラウザアプリ、分類対象となる複数の文書に係る文書データ等が記憶されている。
【0031】
<<情報管理装置の各機能構成>>
次に、文書分類装置2の各機能構成について詳細に説明する。
図4に示されている文書分類装置2の送受信部21は、主に、外部機器接続I/F225及びネットワークI/F250に対するCPU201の処理によって実現され、外部装置と接続可能な通信ネットワークを介して他の装置、通信端末との間で各種データ(又は情報)の送受信を行う。本実施形態において送受信部21は、送信手段及び受信手段のうち少なくとも一方の手段の一例として機能する。
【0032】
受付抽出部22は、主に、パネル表示部240a及び操作キー240bのうち少なくとも一方が受け付けた各種操作により生成された信号をCPU201が処理することによって実現される。また受付抽出部22は、スキャナ部231によって読み取られた分類対象となる文書をOCR等の機能を利用し、形態素解析を用いて文書に含まれるテキスト情報から所定の単語を抽出(分割)する。本実施形態において受付抽出部22は、受付手段の一例、抽出手段の一例として機能する。
【0033】
検索特定部23は、主に、CPU201の処理によって実現される。検索特定部23は、IPアドレスと抽出された単語とを用いて、文書の分類が行われている地域を特定する。具体的には、検索特定部23は、文書分類装置2に関連付けられた分類実施地域を示す分類実施地域名と、複数の文書の各々に含まれる単語に関連付けられた検索結果地域を示す検索結果地域名と、を特定する。また検索特定部23は、所定のAPI(Application Programming Interface)を用いて使用されるIPアドレスによる検索、又は、IPアドレスと各分類実施地域名とが関連付けられた分類実施地域名管理テーブル(DB)で管理されている情報を検索することにより、分類実施地域名を特定する。また検索特定部23は、分類実施地域名に対応するIPアドレスと、複数の文書の各々に含まれる地域関連単語とが関連付けられた検索結果地域名管理テーブル(DB)を検索することにより、検索結果地域名を特定する。本実施形態において検索特定部23は、検索手段の一例、特定手段の一例として機能する。
【0034】
表示制御部24は、主に、パネル表示部240aに対するCPU201の処理によって実現され、分類された文書一覧を示す文書分類結果一覧画面を含む各種画面及び情報(データ)の表示制御を行う。また、表示制御部24は、例えば、ブラウザを用いて、HTML等により生成された表示画面を、パネル表示部240aに表示させることも可能である。本実施形態において表示制御部24は表示制御手段の一例として機能する。
【0035】
選別部25は、主に、CPU201の処理によって実現される。また選別部25は、文書の分類において利用する情報を選別する、具体的には、また選別部25は、特定された分類実施地域名及び検索結果地域名の少なくとも一方に基づいて、文書を分類するための単語を選別する。また選別部25は、特定された地域名に関連付けられた地域辞書管理テーブル(DB)、及び複数の文書の各々に含まれる単語に関連付けられた汎用辞書管理テーブル(DB)を検索することにより、単語を選別する。本実施形態において選別部25は、選別手段の一例として機能する。
【0036】
算出分類部26は、主に、CPU201の処理によって実現され、抽出した単語と文書の分類に用いる辞書データから類似度を算出し、文書種別の判定、分類を行う。具体的には、算出分類部26は、複数の文書のうち、特定された分類実施地域名と、特定された検索結果地域名と、に基づいて分類を行う。また算出分類部26は、選別部25により選別された単語の類似度を算出することにより、予め選別された文書を分類する。また算出分類部26は、自然言語をベクトル表現するtf-idf(term frequency-inverse document frequency)で算出された特徴ベクトルのコサイン類似度に対して、類似度が最も高い予め選別された文書の種別を分類する。本実施形態において算出分類部26は、算出手段の一例、分類手段の手段の一例として機能する。
【0037】
生成部27は、主に、CPU201の処理によって実現され、パネル表示部240aに表示させる文書分類結果一覧に係る各種画面情報等を生成する。本実施形態において生成部27は、生成手段の一例として機能する。
【0038】
実行制御部28は、主に、CPU201の処理によって実現され、文書分類装置2における各種処理を実行し、又は各種処理の実行を制御する。本実施形態において実行制御部28は、実行制御手段の一例として機能する。
【0039】
記憶読出部29は、主に、ROM202a及びHD208のうち少なくとも一つに対するCPU201の処理によって実現され、記憶部2000に各種データ(又は情報)を記憶したり、記憶部2000から各種データ(又は情報)を読み出したりする。本実施形態において記憶読出部29は、記憶読出手段の一例として機能する。
【0040】
●形態素解析管理テーブル●
図5は、形態素解析管理テーブルの一例を示す概念図である。なお、以下に説明するデータテーブルは一例であり、これに限るものではない。記憶部2000には、
図5に示されているような形態素解析管理テーブルによって構成された形態素解析管理DB2001が構築されている。形態素解析管理テーブルは、
図2に示したデータ構造をデータテーブルとして管理するようにしたものであり、文字情報と文字情報に関する関連情報が関連付けられて記憶、管理されている。文字情報に対応した文字情報に関する関連情報には、品詞、読み仮名等が関連付けられて管理されている。例えば、文字情報としての「契約書」に関しては、「名詞」、「普通名詞」、「一般」、「ケイヤクショ」、「契約書」、「ケイヤクショ」の各情報が関連付けられて管理されている。
【0041】
本実施形態において形態素解析管理テーブル(形態素解析管理DB2001)は、形態素解析管理手段の一例として機能する。
【0042】
●分類実施地域名管理テーブル●
図6は、分類実施地域名管理テーブルの一例を示す概念図である。なお、以下に説明するデータテーブルは一例であり、これに限るものではない。記憶部2000には、
図6に示されているような分類実施地域名管理テーブルによって構成された分類実施地域名管理DB2002が構築されている。分類実施地域名管理テーブルでは、IPアドレスと分類実施地域名とが関連付けられて記憶、管理されている。これらのうち、IPアドレスは、分類対象となる複数の文書を分類する際に利用され、通信ネットワークを介して他の装置、通信端末と接続する際に文書分類装置2に与えられた識別情報である。また、分類実施地域名は、例えば、文書分類装置2によって文書を分類する地域名(都道府県)である。
【0043】
本実施形態において分類実施地域名管理テーブル(分類実施地域名管理DB2002)は、分類実施地域名管理手段の一例として機能する。
【0044】
●検索結果地域名管理テーブル●
図7は、検索結果地域名管理テーブルの一例を示す概念図である。なお、以下に説明するデータテーブルは一例であり、これに限るものではない。記憶部2000には、
図7に示されているような検索結果地域名管理テーブルによって構成された検索結果地域名管理DB2003が構築されている。検索結果地域名管理テーブルでは、文書IDごとに、文書名(種類)、IPアドレス、文書中地域関連単語及び検索結果地域名(都道府県)が関連付けられて記憶、管理されている。これらのうち、文書IDは分類対象となる複数の文書の各々を識別する識別紹鴎である。文書名(種類)は、分類対象となる複数の文書の各々を表す名称(種類)であり、例えば、「大阪請求書」、「東京見積書」である。文書中地域関連単語は、分類対象となる複数の文書の各々に含まれるテキスト情報から地域名に関連する単語を表し、例えば、「大阪府○○」、「なんば」、「浦安市」、「大阪支部A」、「東京支部B」である。検索結果地域名(都道府県)は、文書中地域関連単語に対応する都道府県名であり、例えば、「大阪」、「千葉」、「東京」、「福岡」である。そのため、検索結果地域名(都道府県)は、一つの文書中に文書中地域関連単語が複数存在する場合、それに対応して複数在してもかまわない。但し、文書データの分類においては、分類実施地域名に対応した地域名を優先的に採用するため、分類実施地域名が「大阪」であれば、検索結果地域名(都道府県)も「大阪」が優先的に用いられる。
【0045】
本実施形態において検索結果地域名管理テーブル(検索結果地域名管理DB2003)は、検索結果地域名管理手段の一例として機能する。
【0046】
●地域辞書管理テーブル●
図8は、地域辞書管理テーブルの一例を示す概念図である。なお、以下に説明するデータテーブルは一例であり、これに限るものではない。記憶部2000には、
図8に示されているような地域辞書管理テーブルによって構成された地域辞書管理DB2004が構築されている。地域辞書管理テーブルでは、地域ラベルを表す地域名をタブとしたそれぞれのタブごとに、文書ID、文書名(種類)、単語ID、単語(Word)、TF(Term Frequency)が関連付けられて記憶、管理されている。これらのうち、単語IDは、各文書に含まれる単語に付与されそれぞれの単語を識別する識別情報である。単語(Word)は、各文書名で示される文書から抽出された単語を表し、例えば、「事故」、「担当」、「状況」である。TFは、文書における類似度を数値化したものであり、入力した文書に対して、例えば「事故」という単語が、どの程度その文書中でその文書らしさを表しているかの指標を表し、例えば、「0.026…」、「0.019…」等の値で示される。
【0047】
本実施形態において地域辞書管理テーブル(地域辞書管理DB2004)は、地域辞書管理手段の一例として機能する。
【0048】
●汎用辞書管理テーブル●
図9は、汎用辞書管理テーブルの一例を示す概念図である。なお、以下に説明するデータテーブルは一例であり、これに限るものではない。記憶部2000には、
図9に示されているような汎用辞書管理テーブルによって構成された汎用辞書管理DB2005が構築されている。汎用辞書管理テーブルでは、文書IDごとに、文書名(種類)、単語ID、単語(Word)、TFが関連付けられて記憶、管理されている。この汎用辞書管理テーブルは、上述した地域辞書管理テーブルで管理されている各項目と同様の機能を有する項目を管理し、地域名に依存しない汎用的な辞書管理テーブルとして用いられる。
【0049】
本実施形態において汎用辞書管理テーブル(汎用辞書管理DB2005)は、汎用辞書管理手段の一例として機能する。
【0050】
〔実施形態の処理又は動作〕
次に、
図10乃至
図14を用いて、第1の実施形態に係る文書分類装置における各処理又は動作を説明する。本実施形態に係る文書分類装置2がMFPの場合、文書分類装置2は、分類対象となる文書を読み取った後、読み取られた文書に含まれるテキスト情報から、OCR技術により文字列の抽出を行う。その後、文書分類装置2は、抽出した文字列に対して形態素解析を行い、文字列を単語に切り分ける。そして、文書分類装置2は、は、これらの単語に対して、自然言語をベクトル表現する手法として知られているTF-IDFを利用する。TF-IDF(tf-idf、TF-IDF、tf-idfとも記載する)は、tf(Term Frequency)単語の出現度合いと、idf(Inverse Document Frequency)単語の出現頻度の少なさの二つを用いて、文書ごとの特徴ベクトルを表す手法である。本実施形態では、仕分けをする分類ごとにTF-IDFで特徴ベクトルを算出し、同様に評価する文書でもTF-IDFで特徴ベクトルを算出する。その後、文書分類装置2は、これらのベクトルのコサイン類似度を算出し、類似度が一番高い文書種類に分類する。但し、類似度が閾値を超えない場合は、特徴量が低いという判断で未分類とする。
【0051】
以下、
図10について説明する。
図10は、実施形態に係る分類対象文書に対する全体処理の一例を示すフローチャートである。まず、文書分類装置2は、主に、受付抽出部22が形態素解析による抽出処理を実行する(ステップS11)。具体的には、受付抽出部22は、分類対象となる複数の文書の各々に対して読取りを行い、OCR技術により文字列の抽出を行う。その後、受付抽出部22は、形態素解析管理DB2001(
図5参照)に基づいて、抽出された文字列の各々の文字情報に関する関連情報を読み出す。このように、分類対象となる複数の文書中の単語は、複数の文書の各々に含まれるテキストデータに対して行われる形態素解析から得られた文字例に基づいて抽出される。
【0052】
次に、文書分類装置2は、検索特定部23による特定処理を実行する(ステップS12)。この処理の詳細については後述する。
【0053】
次に、文書分類装置2は、選別部25による選別処理を実行する(ステップS13)。この処理の詳細については後述する。
【0054】
次に、文書分類装置2は、算出分類部26による分類処理を実行し、必要に応じて表示手段に表示結果を表示させて(ステップS14)、文書分類の全体処理を終了する。具体的には、算出分類部26は、複数の文書のうち、特定された分類実施地域名と、特定された検索結果地域名と、に基づいて分類を行う。
【0055】
<検索特定部による特定処理>
図11は、実施形態に係る分類対象文書に対する検索特定部による特定処理の一例を示すフローチャートである。
図11では、ステップS12で説明した処理の詳細について説明する。まず、検索特定部23は、IPアドレスによる文書分類が行われている地域を特定する(ステップS12-1)。具体的には、検索特定部23は、例えば、GeoJsのAPI等を用いて使用されているIPアドレスから地域名を特定する。また、検索特定部23は、自装置としての文書分類装置2に付与されたIPアドレスを検索キーとして分類実施地域名管理DB2002(
図6参照)を参照し、文書分類装置2に付与されたIPアドレスに関連付けられた分類実施地域を示す分類実施地域名(都道府県)を読み出してもよい。
【0056】
また、検索特定部23は、分類している文書の文書データから地域名を検索する(ステップS12-2)。具体的には、検索特定部23は記憶読出部29を介して、分類対象となる文書からOCR技術等を用いて抽出した単語、例えば、「大阪府○○」を、検索結果地域名管理DB2003(
図7参照)で管理され文書IDに対応する文書中地域関連単語の項目に登録し、記憶させる。検索特定部23は更に、登録した単語に含まれる都道府県名を特定して検索結果地域名に登録し、記憶させる。この場合、検索特定部23は、検索結果地域名管理DB2003に対して、分類対象となる文書IDに対応する文書名(種類)も合わせて登録し、記憶させてもよい。
【0057】
続いて、検索特定部23は、文書分類が行われている地域名と分類している文書との関連がある地域名の情報を統合してこのフローを抜ける(ステップS12-3)。具体的には、検索特定部23は、ステップS12-1及びS12-2で得られた結果を統合し、その統合結果を、文書分類装置2の記憶部2000の所定領域、若しくは一時的なバッファ領域に記憶させる。
【0058】
<選別部による選別処理>
図12は、実施形態に係る分類対象文書に対する選別部による選別処理の一例を示すフローチャートである。
図12では、選別部25は、上述したステップS12-3における検索特定部23の出力を受け付ける(ステップS13-1)。
【0059】
次に、選別部25は、地域名に合致するラベルが付与されている文書分類時に利用する辞書データを検索する(ステップS13-2)。具体的には、選別部25は、上述した検索特定部23によって特定された地域名(都道府県)に合致するラベル(例えば、大阪)をタブとする地域辞書管理DB2004(
図8参照)で管理されている、分類対象となる文書に関連付けられた辞書データ(単語IDと単語IDに対応する単語(Word))を検索する。
【0060】
また、選別部25は、汎用的な文書分類時に利用する辞書データを検索する(ステップS13-3)。具体的には、選別部25は、汎用辞書管理DB2005(
図9参照)で管理されている、分類対象となる文書に関連付けられた辞書データ(単語IDと単語IDに対応する単語(Word))を検索する。
【0061】
次に、選別部25は、文書分類時に参照する情報を決定してこのフローを抜ける(ステップS13-4)。具体的には、選別部25は、ステップS13-2及びS12-3で得られた結果を統合し、その統合結果を、文書分類装置2の記憶部2000の所定領域、若しくは一時的なバッファ領域に記憶させる。
【0062】
図10に戻り、算出分類部26は、ステップS13によって選別された結果を利用してステップS14の文書データの分類処理を行い、文書分類の全体処理を終了する。具体的には、算出分類部26は、分類対象となる文書に係る文書データ(読み取られた文書に係る文書データ)と、各種データテーブルを検索することにより読み出されたデータと、に対して1対1で類似度を算出し、最も類似度が高いものを分類後の文書種別として分類する。
【0063】
●画面表示例●
図13は、実施形態に係る文書分類装置における文書分類結果の表示画面の一例を示す図である。文書分類装置2の表示制御部24は、パネル表示部240aに文書分類結果一覧画面2111を表示させる。文書分類結果一覧画面2111では、文書分類結果一覧として、文書中に示された地域名(都道府県)ごとに、文書種類、分類結果閲覧ボタン(アイコン)2151が表示される。利用者は、この分類結果閲覧ボタン2151を所望の文書種類に対して操作することで、後述する文書一覧の詳細を閲覧(確認)することができる。なお、戻るボタン(アイコン)2161は、前の画面に戻るためのボタンである。
【0064】
図14は、実施形態に係る文書分類結果の一例を示す図である。
図14では、
図13の文書分類結果一覧画面2111で操作された所望の文書種類の一覧(この場合は大阪に関する請求書の一覧)がパネル表示部240aに表示された場合の模式的な状態である。この場合、表示制御部24は、利用者が所望の請求書に対してマウスオーバー操作等を行った場合に、その請求書をパネル表示部240aの最上面に移動させて内容を閲覧できるようにしてもよい。
【0065】
〔第1の実施形態の主な効果〕
以上説明したように本実施形態によれば、文書分類装置2は、自装置に関連付けられた分類実施地域を示す分類実施地域名と、複数の文書の各々に含まれる単語に関連付けられた検索結果地域を示す検索結果地域名と、を特定し(ステップS12)、複数の文書のうち、特定された分類実施地域名と、特定された検索結果地域名と、に基づいて分類を行う(ステップS14)。これにより、文書に含まれる単語を用いて複数の文書を分類する場合、効率的な文書の分類を実現させることが可能になるという効果を奏する。
【0066】
更に、本実施形態によれば、予め文書に関連付けられた地域名を特定するため、類似している分類先を排除することで、分類の失敗を防止することが可能になる、という効果も奏する。
【0067】
〔第2の実施形態〕
〔文書分類システムの全体構成〕
次に、第2の実施形態について説明する。
図15は、第2の実施形態に係る文書分類システムの全体構成の一例を示す図である。
図15に示されているように、文書分類システム1は、文書分類装置2及び通信端末3を有している。
【0068】
文書分類システム1では、文書分類装置2及び通信端末3は、通信ネットワーク100を介してそれぞれ互いに接続されている。通信ネットワーク100は、不特定多数の通信が行われる通信ネットワークであり、インターネット、イントラネット、LAN(Local Area Network)等によって構築されている。なお、通信ネットワーク100には、有線通信だけでなく、4G(4th Generation)、5G(5th Generation)、WiMAX(Worldwide Interoperability for Microwave Access)、LTE(Long Term Evolution)等の無線通信による通信ネットワークが含まれてもよい。なお、文書分類装置2及び通信端末3は、専用の有線ケーブルで直接接続されていてもよい。
【0069】
なお、文書分類装置2では、ストレージ等の各部(機能又は手段)を分割して任意に割り当てられた複数のコンピュータによって構築されてもよい。また、文書分類装置2の機能の全てまたは一部は、クラウド環境に存在するサーバコンピュータであってもよいし、オンプレミス環境に存在するサーバコンピュータであってもよい。文書分類装置2は、更に、ブラウザソフトウエア等のソフトウエアを動作させることが可能な通信装置又は通信端末が用いられてもよい。
【0070】
また、文書分類装置2は、通信端末3に対してプッシュ通知(送信)によりデータ(情報)を通知(送信)してもよい。その場合、文書分類装置2は、例えば、プッシュ通知サーバの一例であるFCM(Firebase Cloud Messaging)を介してプッシュ通知が行われるようにしてよい。
【0071】
<通信端末>
通信端末3は、文書分類システム1を利用するユーザ(利用者)によって利用され、文書分類装置2が送信した分類結果情報等を受信して記憶、表示等を行う通信端末である。また、通信端末3は、一般的なOSなどが搭載された通信を行うための情報処理端末(コンピュータシステム)によって実現され、文書分類システム1を構築する一つの構成要素である。また、通信端末3は、一般的に利用されている外部サービスを提供する他の装置、通信端末と通信を行うための通信アプリ、並びに、分類された文書一覧を記憶、表示、管理するための文書管理アプリ等を記憶手段にインストールして記憶している。
【0072】
ここで、通信端末3の機能及び役割について説明する。文書分類に係る第2の実施形態では、通信端末3は、
図15に示した文書分類システム1における文書分類装置2の各種データ(情報)の一括管理を行うことも可能である。つまり、文書分類システム1では、通信端末3が、文書分類装置2で管理されるデータテーブル、分類対象となる複数の文書、及び文書分類結果一覧を含む分類後の文書に係るデータ(情報)のうち少なくとも一つを一括管理する通信端末として構築されてもよい。
【0073】
なお、通信端末3は、一般的に使用されるPC(Personal Computer)、携帯型ノートPC、携帯電話、スマートフォン、タブレット端末、ウェアラブル端末(サングラス型、腕時計型等)の通信機能を有する通信端末であってもよい。通信端末3は更に、ブラウザソフトウエア、各種アプリ(自然文検索アプリ等)のソフトウエアを動作させることが可能な通信装置又は通信端末が用いられてもよい。
【0074】
〔第2の実施形態の主な効果〕
以上説明したように本実施形態によれば、文書分類装置2において分類された文書データを、文書分類装置2と通信可能な通信端末3に記憶させ、必要に応じて分類結果を表示させる。これにより、文書分類装置2における処理負荷を軽減させることが可能になるほか、通信端末3を利用する利用者の利便性も向上させることが可能になる、という効果も期待できる。
【0075】
〔実施形態の補足〕
上述した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウエアによって各機能を実行するようプログラミングされたデバイスを含むものとする。このデバイスとは、例えば、プロセッサ、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(digital signal processor)、FPGA(field programmable gate array)、SOC(System on a chip)、GPU(Graphics Processing Unit)、及び従来の回路モジュール等をいう。
【0076】
また、上述したように、文書分類装置2は、各種判断を機械学習(人工知能:AIを利用した学習)におけるコサイン類似度を利用して実行してもよい。文書分類装置2は更に、コサイン類似度に代えて、他の解析手法を利用して文書を分類するようにしてもよい。
【0077】
これまで本発明の一実施形態に係る文書分類装置、文書分類方法及びプログラムについて説明してきたが、本発明は、上述した実施形態に限定されるものではなく、他の実施形態の追加、変更又は削除等、当業者が想到することができる範囲内で変更することができ、いずれの態様においても本発明の作用・効果を奏する限り、本発明の範囲に含まれるものである。なお、上述した各構成部品の寸法、材質、形状、その相対的配置等は、特定的な記載がない限り、本発明の範囲をそれのみに限定する趣旨ではなく、例示することを意図したものである。
【0078】
■まとめ■
本発明に係る態様は、例えば、以下のとおりである。
【0079】
<第1態様>
第1態様としての文書に含まれる単語を用いて文書を分類する文書分類装置2(文書分類装置の一例。以下省略)は、文書分類装置2に関連付けられた分類実施地域を示す分類実施地域名と、複数の文書の各々に含まれる単語に関連付けられた検索結果地域を示す検索結果地域名と、を特定する検索特定部23(特定手段の一例。以下省略)と、複数の文書のうち、特定された分類実施地域名と、特定された検索結果地域名と、に基づいて分類を行う算出分類部26(分類手段の一例。以下省略)と、を有する。
【0080】
第1態様によれば、文書に含まれる単語を用いて複数の文書を分類する場合、効率的な文書の分類を実現させることが可能になる。
【0081】
<第2態様>
第2態様としての文書分類装置2の検索特定部23は、第1態様において、所定のAPI(Application Programming Interface)を用いて使用されるIPアドレスによる検索、又は、IPアドレスと各分類実施地域名とが関連付けられた分類実施地域名管理DB2002(分類実施地域名管理手段の一例。以下省略)で管理されている情報を検索することにより、分類実施地域名を特定する。
【0082】
第2態様によれば、地域名に係る情報取得における情報量を増やすことができると共に、いずれかの方法で情報が取得できなかった場合に対応することが可能になる。
【0083】
<第3態様>
第3態様としての文書分類装置2の検索特定部23は、第1態様において、分類実施地域名に対応するIPアドレスと、複数の文書の各々に含まれる地域関連単語とが関連付けられた検索結果地域名管理DB2003(検索結果地域名管理手段の一例。以下省略)を検索することにより、検索結果地域名を特定する。
【0084】
第3態様によれば、一度検索された結果をデータベースに登録させることで、文書分類装置2における2回目以降の検索処理の効率化を図ることが可能になる。
【0085】
<第4態様>
第4態様としての文書分類装置2は、第1態様乃至第3態様において、特定された分類実施地域名及び検索結果地域名の少なくとも一方に基づいて、文書を分類するための単語を選別する選別部25(選別手段の一例。以下省略)を有する。
【0086】
第4態様によれば、文書の分類を実施する分類実施地域名と検索結果地域名とを併用させて文書を分類するための単語を選別することで、文書の分類精度を向上させることが可能になる。
【0087】
<第5態様>
第5態様としての文書分類装置2の選別部25は、第4態様において、特定された地域名に関連付けられた地域辞書管理DB2004(地域辞書管理手段の一例。以下省略)、及び複数の文書の各々に含まれる単語に関連付けられた汎用辞書管理DB2005(汎用辞書管理手段の一例。以下省略)を検索することにより、単語を選別する。
【0088】
第5態様によれば、地域名に関連した辞書データと汎用的な辞書データとを併用させて文書を分類するための単語を選別することで、第4の実施形態と同様に、文書の分類精度を向上させることが可能になる。
【0089】
<第6態様>
第6態様としての文書分類装置2の算出分類部26は、第5態様において、選別部25により選別された単語の類似度を算出することにより、予め選別された文書を分類する。
【0090】
第6態様によれば、予め分類対象が絞られるので、文書の分類の効率化に貢献することが可能になる。
【0091】
<第7態様>
第7態様としての文書分類装置2の算出分類部26は、第6態様において、自然言語をベクトル表現するtf-idf(term frequency-inverse document frequency)で算出された特徴ベクトルのコサイン類似度に対して、類似度が最も高い予め選別された文書の種別を分類する。
【0092】
第7態様によれば、汎用的な類似度を求める手法が利用できるので、文書分類装置2における機能設計の負担軽減が可能になる。
【0093】
<第8態様>
第8態様としての文書分類装置2で分類対象となる複数の文書中の単語は、第1態様乃至第7態様のいずれかにおいて、複数の文書の各々に含まれるテキストデータに対して行われる形態素解析から得られた文字例に基づいて抽出される。
【0094】
<第9態様>
第9態様としての文書に含まれる単語を用いて文書を分類する文書分類装置2(文書分類装置の一例。以下省略)が実行する文書分類方法は、文書分類装置2に関連付けられた分類実施地域を示す分類実施地域名と、複数の文書の各々に含まれる単語に関連付けられた検索結果地域を示す検索結果地域名と、を特定する特定ステップと、複数の文書のうち、特定された分類実施地域名と、特定された検索結果地域名と、に基づいて分類を行う分類ステップと、を実行する。
【0095】
第9態様によれば、第1態様と同様に、文書に含まれる単語を用いて複数の文書を分類する場合、効率的な文書の分類を実現させることが可能になる。
【0096】
<第10態様>
第10態様としてのプログラムは、文書に含まれる単語を用いて文書を分類する文書分類装置2(文書分類装置の一例。以下省略)に、文書分類装置2に関連付けられた分類実施地域を示す分類実施地域名と、複数の文書の各々に含まれる単語に関連付けられた検索結果地域を示す検索結果地域名と、を特定する特定ステップと、複数の文書のうち、特定された分類実施地域名と、特定された検索結果地域名と、基づいて分類を行う分類ステップと、を実行させる。
【0097】
第10態様によれば、第1態様と同様に、文書に含まれる単語を用いて複数の文書を分類する場合、効率的な文書の分類を実現させることが可能になる。
【符号の説明】
【0098】
1 文書分類システム
2 文書分類装置
3 通信端末
21 送受信部(送信手段の一例、受信手段の一例)
22 受付抽出部(受付手段の一例)
23 検索特定部(検索手段の一例、特定手段の一例)
24 表示制御部(表示制御手段の一例)
25 選別部(選別手段の一例)
26 算出分類部(算出手段の一例、分類手段の一例)
27 生成部(生成手段の一例)
28 実行制御部(実行制御手段の一例)
29 記憶読出部(記憶読出手段の一例)
240a パネル表示部(表示手段の一例)
【先行技術文献】
【特許文献】
【0099】