(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024110307
(43)【公開日】2024-08-15
(54)【発明の名称】情報処理システム、サービス提供システム、情報抽出方法、プログラム、端末装置
(51)【国際特許分類】
G06F 16/35 20190101AFI20240807BHJP
【FI】
G06F16/35
【審査請求】未請求
【請求項の数】17
【出願形態】OL
(21)【出願番号】P 2023014830
(22)【出願日】2023-02-02
(71)【出願人】
【識別番号】000006747
【氏名又は名称】株式会社リコー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100107515
【弁理士】
【氏名又は名称】廣田 浩一
(72)【発明者】
【氏名】前原 光志
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA03
5B175GA03
5B175HB03
(57)【要約】
【課題】文書データから所定の情報を抽出すること。
【解決手段】本発明は、文書データの種類を判断する情報処理システムであって、前記文書データから単語を抽出する第1の抽出部と、所定の条件に基づいて前記単語を解析することで前記文書データから所定の情報を抽出する情報抽出部と、を有する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
文書データの種類を判断する情報処理システムであって、
前記文書データから単語を抽出する第1の抽出部と、
所定の条件に基づいて前記単語を解析することで前記文書データから所定の情報を抽出する情報抽出部と、
を有する情報処理システム。
【請求項2】
前記所定の情報は、前記文書データの発行元、又は、受領先の少なくとも一方であることを特徴とする請求項1に記載の情報処理システム。
【請求項3】
前記所定の条件として、前記文書データか自然言語処理で抽出した文字列を、記憶部から検索することにより名称を抽出する第2の抽出部を有し、
前記情報抽出部は、前記名称と前記単語に基づいて前記所定の情報を抽出することを特徴とする請求項1に記載の情報処理システム。
【請求項4】
前記所定の条件として、特定のキーワードの前後の固有名詞を名称として抽出する第2の抽出部を有し、
前記情報抽出部は、前記名称と前記単語に基づいて前記所定の情報を抽出することを特徴とする請求項1に記載の情報処理システム。
【請求項5】
前記所定の条件として、名称に対応付けられている過去の文書データと、種類が判別された前記文書データとの類似度に基づいて前記名称を抽出する第2の抽出部を有し、
前記情報抽出部は、前記名称と前記単語に基づいて前記所定の情報を抽出することを特徴とする請求項1に記載の情報処理システム。
【請求項6】
前記所定の条件として、名称に対応付けられている過去の文書データが含む単語の単語辞書を、種類が判別された前記文書データから抽出された単語で検索し、一致率が最も高い前記単語辞書に対応付けられている前記名称を抽出する第2の抽出部を有し、
前記情報抽出部は、前記名称と前記単語に基づいて前記所定の情報を抽出することを特徴とする請求項1に記載の情報処理システム。
【請求項7】
前記情報抽出部は、前記名称と前記単語に基づいて、前記名称が受領先か発行元かを判断することを特徴とする請求項3~6のいずれか1項に記載の情報処理システム。
【請求項8】
前記情報抽出部は、前記名称の後に特定のキーワードがある場合、前記名称が受領先であると判断することを特徴とする請求項7に記載の情報処理システム。
【請求項9】
前記キーワードは、御中、様、宛、殿、又は、行きのうち少なくとも1つを含むことを特徴とする請求項8に記載の情報処理システム。
【請求項10】
前記情報抽出部は、前記文書データに2つの前記名称がある場合、前記受領先と判断しない方の前記名称を発行元と判断することを特徴とする請求項7に記載の情報処理システム。
【請求項11】
前記情報抽出部は、前記情報処理システムにより認証が成功した、ユーザー属性情報と一致する前記名称が前記文書データから抽出された場合、前記名称を前記受領先と判断することを特徴とする請求項7に記載の情報処理システム。
【請求項12】
前記文書データの種類の判断結果を端末装置に表示させる画面提供部と、
前記端末装置から修正後の前記文書データの種類が送信された場合、文書データの分類結果を前記端末装置から送信された修正後の前記文書データの種類に更新する更新部と、
を有することを特徴とする請求項7に記載の情報処理システム。
【請求項13】
前記端末装置から送信された修正後の前記文書データの種類に対応付けられており、かつ、分類対象の文書データから抽出された単語の出現頻度に関わる値が更新された場合、
前記更新部は、次回、前記文書データの種類を判断する際、更新された前記値に基づいて前記文書データの種類を判断する文書分類部を有することを特徴とする請求項12に記載の情報処理システム。
【請求項14】
端末装置と、文書データの種類を判断する情報処理システムとが通信できるサービス提供システムであって、
前記文書データから単語を抽出する第1の抽出部と、
所定の条件に基づいて前記単語を解析することで前記文書データから所定の情報を抽出する情報抽出部と、
を有するサービス提供システム。
【請求項15】
文書データの種類を判断する情報処理システムが行う情報抽出方法であって、
前記文書データから単語を抽出する処理と、
所定の条件に基づいて前記単語を解析することで前記文書データから所定の情報を抽出する処理と、
を実行する情報抽出方法。
【請求項16】
文書データの種類を判断する情報処理装置を、
前記文書データから単語を抽出する第1の抽出部と、
所定の条件に基づいて前記単語を解析することで前記文書データから所定の情報を抽出する情報抽出部、
として機能させるためのプログラム。
【請求項17】
文書データの種類を判断する文書分類部と、
前記文書データから単語を抽出する第1の抽出部と、
所定の条件に基づいて前記単語を解析することで前記文書データから所定の情報を抽出する情報抽出部と、を有する情報処理システムと、ネットワークを介して通信する端末装置であって、
前記情報処理システムから送信された、前記文書データの種類の判断結果を表示する表示制御部と、
修正後の前記文書データの種類の入力を受け付ける操作受付部と、
修正後の前記文書データの種類を前記情報処理システムに送信する通信部と、
を有する端末装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理システム、サービス提供システム、情報抽出方法、プログラム、及び、端末装置に関する。
【背景技術】
【0002】
文書データに含まれる単語等の情報と、既に文書データの種類別に分類されている文書群の単語等の情報とを比較して、未知の文書の種類を判断する文書の自動分類方法が知られている。
【0003】
自動分類方法の1つとして文章の特徴量から文書を分類する技術が考案されている(例えば、特許文献1参照。)。特許文献1には、文書データの全部又は一部から文字列の特徴に関するデータを抽出し、抽出された文字列の特徴に関するデータに基づいて文書データを加工し、加工処理された文書データを出力する文書処理装置が開示されている。
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来の技術では、文書を分類した上で、ユーザーが対象文書を表示させなければ確認できない所定の情報についての判別は困難である。例えば請求書、領収書、納品書、又は発注書などのように、企業間取引(個人取引を含む)においては文書データの発行元や受領者等の所定の情報を特定しておく必要があるものがある。しかし、電子化された文書データでは、ユーザーが実際に文書データを表示させるなどの操作を行わない限り、所定の情報を判別するのが難しい。
【0005】
本発明は、上記課題に鑑み、文書データから所定の情報を抽出することを目的とする。
【課題を解決するための手段】
【0006】
本発明は、文書データの種類を判断する情報処理システムであって、前記文書データから単語を抽出する第1の抽出部と、所定の条件に基づいて前記単語を解析することで前記文書データから所定の情報を抽出する情報抽出部と、を有する。
【発明の効果】
【0007】
文書データから所定の情報を抽出することができる。
【図面の簡単な説明】
【0008】
【
図1】所定の情報を情報処理システムが抽出する処理の概略を説明する図である。
【
図2】サービス提供システムの一例のシステム構成を示す図である。
【
図3】情報処理システム、外部サービスシステム及び端末装置の一例のハードウェア構成を示す図である。
【
図4】機器の一例である画像形成装置のハードウェア構成図である。
【
図5】サービス提供システムの一例の機能構成を示す図である。
【
図6】文書分類用辞書情報記憶部に保存される文書分類用辞書情報の一例を示す図である。
【
図7】ラベル付きクラス情報記憶部に記憶されているラベル付きクラス情報の一例を示す図である。
【
図8】文書分類部が文書データを分類し、所定の情報を抽出する処理を説明するフローチャート図の一例である。
【
図9】
図8のステップS3の処理で行われる企業名の抽出を詳細に説明するフローチャート図の一例である。
【
図10】
図8のステップS4の処理における所定の情報の抽出を詳細に説明するフローチャート図の一例である。
【
図11】端末装置が表示する確認修正画面の一例を示す図である。
【
図12】スキャンにより生成された文書データの画像データ、及び、OCR、形態素解析、企業名抽出により抽出された単語の一例を示す図である。
【
図13】文書分類用辞書情報記憶部を簡略化して示す図である。
【
図14】文書分類用辞書情報記憶部とラベル付きクラス情報記憶部の更新処理を説明するフローチャート図の一例である。
【
図15】文書分類用辞書情報記憶部の更新を説明する図である。
【発明を実施するための形態】
【0009】
以下、本発明を実施するための形態の一例として、情報処理システムと情報処理システムが行う情報抽出方法について図面を参照しながら説明する。
【0010】
<動作又は処理の概略>
企業間取引(個人取引を含む)では様々な文書がやり取りされている(なお、以下、企業間取引を一例として説明するが、本発明では、具体的取引に限らず当事者間や第三者とのやり取りを含めて適用可能である)。これらの文書は電子化され文書データとして扱うことが可能である。情報処理システムが文書データを保管する場合、文書データの種類(機械学習の分類問題ではクラスと呼ばれる)に基づいて分類して保管することが求められる。分類方法として、文書データから特徴量を求めクラス側の特徴量との関連性を求め、文書データを類似する種類に分類する方法がある。
【0011】
しかし、文書の種類によっては、例えば請求書、領収書、納品書、又は発注書などのように、文書データの発行元や受領者等の所定の情報を企業が特定しておく必要があるものがある。従来、電子化された文書データでは、ユーザーが実際に文書データを表示させるなどの操作を行わない限り、発行元や受領者などの情報を判別するのが困難であった。
【0012】
そこで、本実施形態では、文書データから、企業名、団体名、氏名(個人名)、又は宛名などの名称を抽出し、更に名称の周囲に「御中」などの所定のキーワードがあるか否かに応じて、文書データから所定の情報(例えば、発行元や受領先など)を抽出する。
【0013】
図1は、本実施形態において所定の情報を情報処理システムが抽出する処理の概略を説明する図である。
【0014】
(1) まず、情報処理システムは、分類対象となる電子化された文書データからOCR(Optical Character Recognition/Reader)によりテキストデータを抽出する。情報処理システムは、テキストデータに対して形態素解析を行うことで単語に切り分ける。これらの単語に対して、情報処理システムは、例えばTF-IDF(Term Frequency Inverse Document Frequency)を算出して、特徴ベクトルを算出する。
【0015】
(2) 同様に、情報処理システムは、種類別に保存されている過去の文書データについて種類ごと(すなわちクラスごと)にTF-IDFによる特徴ベクトルを算出する。
【0016】
(3) 情報処理システムは、分類対象の文書データの特徴ベクトルと各種類の特徴ベクトルのコサイン類似度を算出し、類似度が一番高いクラスに分類対象の文書データを分類する。
【0017】
(4) また、情報処理システムは、形態素解析で取得した単語から企業名等の名称を抽出する。
図1では、「ジャパンR産業株式会社」、「おひさま商事株式会社」が抽出される。
【0018】
(5) 情報処理システムは、更に、文書データから抽出された単語から発行元又は受領先を判断する。
図1では、「御中」というキーワードの直前に「ジャパンR産業株式会社」という記載があるので「ジャパンR産業株式会社」が受領先、「おひさま商事株式会社」が発行元だと判別できる。
【0019】
このように、本実施形態の情報処理システムは、企業名等を抽出し、更に「御中」等のキーワードに基づいて所定の情報(発行元又は受領先)を抽出できる。
【0020】
<用語について>
文書とは、1つ以上の文字で人の意思を書き表したものであり、文書データとはコンピュータで扱うことを可能にした電子データである。文書データは文書を表現(記録)できる形式であればどの様な形式のデータであってもよい。例えば、文書をテキスト形式で表現するデータであってもよいし、特定のアプリケーションに特化した形式のデータであってよい。また、ファイル形式で保存される場合があり、ファイルと称してもよい。ファイルとは、コンピュータにおけるデータの管理単位の1つで、記憶装置にデータを記録する際にユーザーやOS(Operating System)から見て最小の記録単位となるデータのまとまりである。
【0021】
単語とは、1つのまとまりある意味を表し、独立した形で文法上の意味や働きを有する言語の最小単位である。
【0022】
文書データの種類とは、文書データの用途、名称、形式、内容等から判断される分類である。
【0023】
所定の条件とは、文書データから企業名(例えば、企業名、団体名、氏名(個人名)、又は宛名などの名称が含まれる)などの名称を抽出するための条件である。本実施形態では、後述する
図9にて4つの条件が使用される。
【0024】
単語の解析とは、単語による辞書の検索、キーワードの検出、類似する文書データとの比較、などをいう。
【0025】
所定の情報とは、種々の文書データの発行元又は受領先の少なくとも一方である。発行元は、送信元、要求元、差出人、送り主、送り手等と呼ばれてもよい。受領先は、宛先、送り先、受信先、受け取り先、届け先等と呼ばれてもよい。
【0026】
<システム構成>
本実施形態に係るサービス提供システム100のシステム構成について、
図2を参照しながら説明する。
図2は、本実施形態に係るサービス提供システム100の一例のシステム構成を示す図である。
【0027】
図2に示すサービス提供システム100では、機器20と、端末装置30とがネットワークN2に接続されており、情報処理システム10と外部サービスシステム40がネットワークN1に接続されている。ネットワークN2は、機器20や端末装置30が配置されている施設などの場所に付設された社内LANや広域イーサネット(登録商標)などである。ネットワークN1は、インターネットやWANなどの広範なネットワークである。
【0028】
情報処理システム10は、一台以上の情報処理装置で実現される。情報処理システム10は、ネットワークN1を介して、ワークフローアプリによってはクラウドサービス等と連携し、ワークフローアプリを実行することで各種のサービスを提供する。ワークフローとは、1以上の処理が一連の処理(ワークフロー)として実行されることをいう。ワークフローはアプリケーションとして実行され、このアプリケーションをワークフローアプリという。管理者は複数の処理を任意に組み合わせ、ワークフローアプリを作成することもできる。なお、一連の処理を「処理フロー」ともいう。
【0029】
管理者とは例えばテナントの管理者である。テナントとは、サービスの提供者からサービスを受けることを契約したユーザーのグループ(企業や自治体、これらの一部の組織等)や個人である。なお、本実施形態では、テナントに所属するユーザーがワークフローアプリを利用できる。
【0030】
情報処理システム10は、クラウドコンピューティングにより実現されてもよいし、単一の情報処理装置によって実現されてもよい。クラウドコンピューティングとは、特定ハードウェア資源が意識されずにネットワーク上のリソースが利用される形態をいう。情報処理システム10は、インターネット上に存在しても、オンプレミスに存在してもよい。 外部サービスシステム40は、情報処理システム10と通信し、又は、単独で、データの保存、読出、又は加工を行うサービスを提供する一台以上の情報処理装置である。外部サービスシステム40の「外部」とは、主に情報処理システム10とは別のシステムであることをいう。外部サービスシステム40は、情報処理システム10とは例えば異なる企業により運営される場合がある。一方、外部サービスシステム40において情報処理システム10が提供するアプリケーションが実行される場合もあり、外部サービスシステム40と情報処理システム10とを同一視できる場合もある。
【0031】
本実施形態において、情報処理システム10と外部サービスシステム40とは一体でもよい。また、後述する情報処理システム10が有する機能の一部又は全部を外部サービスシステム40が有していてもよい。
【0032】
機器20は、ユーザーが使用する各種の電子機器である。機器20はワークフローアプリのリストを表示して、ユーザーが選択したワークフローアプリの実行を情報処理システム10に要求する。機器20は、例えば、MFP(Multifunction Peripheral)等の画像形成装置、プロジェクタ、電子黒板、テレビ会議端末、デジタルカメラ等であり、少なくとも画像を読み取る機能(スキャン機能)を備えればよい。機器20はネットワークN2に接続されている。ユーザーは、機器20を用いて、情報処理システム10が提供する各種のサービスを利用することができる。
【0033】
なお、以降では、複数の機器20について、各々を区別するときは、「機器201」、「機器202」等と添え字を用いて記載する。
【0034】
端末装置30は、例えば、管理者又はユーザーが使用するデスクトップPC、ノート型PC、スマートフォン、タブレット端末等である。ユーザーは端末装置30を操作して、情報処理システム10が提供する各種のサービスを利用することができる。管理者は、ワークフローアプリの設定を行うことができる。
【0035】
なお、以降では、複数の端末装置30について、各々を区別するときは、「端末装置301」、「端末装置302」等と添え字を用いて記載する。
【0036】
<ハードウェア構成例>
図3を参照して、本実施形態に係るサービス提供システム100に含まれる情報処理システム10、及び端末装置30のハードウェア構成について説明する。
【0037】
<<情報処理システム、及び端末装置>>
図3は、本実施形態に係る情報処理システム10、外部サービスシステム40及び端末装置30の一例のハードウェア構成を示す図である。
図3に示されているように、情報処理システム10、外部サービスシステム40及び端末装置30はコンピュータ500によって構築されており、CPU501、ROM502、RAM503、HD(Hard Disk)504、HDD(Hard Disk Drive)コントローラ505、ディスプレイ506、外部機器接続I/F(Interface)508、ネットワークI/F509、バスライン510、キーボード511、ポインティングデバイス512、光学ドライブ514、メディアI/F516を備えている。
【0038】
これらのうち、CPU501は、コンピュータ500全体の動作を制御する。ROM502は、IPL等のCPU501の駆動に用いられるプログラムを記憶する。RAM503は、CPU501のワークエリアとして使用される。HD504は、プログラム等の各種データを記憶する。HDDコントローラ505は、CPU501の制御にしたがってHD504に対する各種データの読み出し又は書き込みを制御する。ディスプレイ506は、カーソル、メニュー、ウィンドウ、文字、又は画像などの各種情報を表示する。外部機器接続I/F508は、各種の外部機器を接続するためのインターフェースである。この場合の外部機器は、例えば、USB(Universal Serial Bus)メモリやプリンタ等である。ネットワークI/F509は、ネットワークN2を利用してデータ通信をするためのインターフェースである。バスライン510は、
図3に示されているCPU501等の各構成要素を電気的に接続するためのアドレスバスやデータバス等である。
【0039】
また、キーボード511は、文字、数値、又は各種指示などの入力に使用される複数のキーを備えた入力手段の一種である。ポインティングデバイス512は、各種指示の選択や実行、処理対象の選択、カーソルの移動などを行う入力手段の一種である。光学ドライブ514は、着脱可能な記録媒体の一例としての光記憶媒体513に対する各種データの読み出し又は書き込みを制御する。なお、光記憶媒体513は、CD、DVD、Blu-Ray(登録商標)等でよい。メディアI/F516は、フラッシュメモリ等の記録メディア515に対するデータの読み出し又は書き込み(記憶)を制御する。
【0040】
<<機器>>
図4は、機器20の一例である画像形成装置のハードウェア構成図である。
図4に示されているように、画像形成装置は、コントローラ910、近距離通信回路920、エンジン制御部930、操作パネル940、ネットワークI/F950を備えている。
【0041】
これらのうち、コントローラ910は、コンピュータの主要部であるCPU901、システムメモリ(MEM-P)902、ノースブリッジ(NB)903、サウスブリッジ(SB)904、ASIC(Application Specific Integrated Circuit)906、記憶部であるローカルメモリ(MEM-C)907、HDDコントローラ908、及び、記憶部であるHD909を有し、NB903とASIC906との間をAGP(Accelerated Graphics Port)バス921で接続した構成となっている。
【0042】
これらのうち、CPU901は、画像形成装置の全体制御を行う制御部である。NB903は、CPU901と、MEM-P902、SB904、及びAGPバス921とを接続するためのブリッジであり、MEM-P902に対する読み書きなどを制御するメモリコントローラと、PCI(Peripheral Component Interconnect)マスタ及びAGPターゲットとを有する。
【0043】
MEM-P902は、コントローラ910の各機能を実現させるプログラムやデータの格納用メモリであるROM902a、プログラムやデータの展開、及びメモリ印刷時の描画用メモリなどとして用いるRAM902bとからなる。なお、RAM902bに記憶されているプログラムは、インストール可能な形式又は実行可能な形式のファイルでCD-ROM、CD-R、DVD等のコンピュータで読み取り可能な記録媒体に記録して提供するように構成してもよい。
【0044】
SB904は、NB903とPCIデバイス、周辺デバイスとを接続するためのブリッジである。ASIC906は、画像処理用のハードウェア要素を有する画像処理用途向けのIC(Integrated Circuit)であり、AGPバス921、PCIバス922、HDDコントローラ908及びMEM-C907をそれぞれ接続するブリッジの役割を有する。このASIC906は、PCIターゲット及びAGPマスタ、ASIC906の中核をなすアービタ(ARB)、MEM-C907を制御するメモリコントローラ、ハードウェアロジックなどにより画像データの回転などを行う複数のDMAC(Direct Memory Access Controller)、並びに、スキャナ部931、プリンタ部932、及びファクシミリ部との間でPCIバス922を介したデータ転送を行うPCIユニットとからなる。なお、ASIC906は、USB(Universal Serial Bus)のインターフェースや、IEEE1394(Institute of Electrical and Electronics Engineers 1394)のインターフェースを有していてよい。
【0045】
MEM-C907は、コピー用画像バッファ及び符号バッファとして用いるローカルメモリである。HD909は、画像データの蓄積、印刷時に用いるフォントデータの蓄積、フォームの蓄積を行うためのストレージである。HD909は、CPU901の制御にしたがってHD909に対するデータの読出又は書込を制御する。AGPバス921は、グラフィック処理を高速化するために提案されたグラフィックスアクセラレータカード用のバスインタフェースであり、MEM-P902に高スループットで直接アクセスすることにより、グラフィックスアクセラレータカードを高速にすることができる。
【0046】
また、近距離通信回路920には、近距離通信回路のアンテナ920aが備わっている。近距離通信回路920は、NFC、Bluetooth(登録商標)等の通信回路である。
【0047】
更に、エンジン制御部930は、スキャナ部931、プリンタ部932及びファクシミリ部933を有している。また、操作パネル940は、現在の設定値や選択画面等を表示させ、操作者からの入力を受け付けるタッチパネル等のパネル表示部940a、並びに、濃度の設定条件などの画像形成に関する条件の設定値を受け付けるテンキー及びコピー開始指示を受け付けるスタートキー等からなるハードキー940bを備えている。コントローラ910は、画像形成装置全体の制御を行い、例えば、描画、通信、操作パネル940からの入力等を制御する。スキャナ部931又はプリンタ部932には、誤差拡散やガンマ変換などの画像処理部分が含まれている。
【0048】
なお、画像形成装置は、操作パネル940のアプリ切り替えキーにより、スキャナ機能のほか、ドキュメントボックス機能、コピー機能、プリンタ機能、及びファクシミリ機能を順次に切り替えて選択することが可能となるが、少なくともスキャナ機能を備えていればよい。画像形成装置は、ドキュメントボックス機能の選択時にはドキュメントボックスモードとなり、コピー機能の選択時にはコピーモードとなり、プリンタ機能の選択時にはプリンタモードとなり、ファクシミリモードの選択時にはファクシミリモードとなる。本実施形態では画像形成装置300のスキャナ機能によって読み取られた帳票等の画像を示す画像データを文書データとして用いることができる。
【0049】
また、ネットワークI/F950は、ネットワークN2を利用してデータ通信をするためのインターフェースである。近距離通信回路920及びネットワークI/F950は、PCIバス922を介して、ASIC906に電気的に接続されている。
【0050】
<機能について>
本実施形態に係るサービス提供システム100の機能構成について、
図5を参照しながら説明する。
図5は、本実施形態に係るサービス提供システム100の一例の機能構成を示す図である。
【0051】
<<端末装置>>
端末装置30は、通信部31と、表示制御部32と、操作受付部33とを有する。これら各機能部は、端末装置30にインストールされた1以上のプログラムに含まれる命令をCPU501が実行することで実現される機能又は手段である。なお、このプログラムはWebブラウザでもよいし、専用のソフトウェアでもよい。
【0052】
通信部31は、情報処理システム10との間で各種の情報を送受信する。本実施形態では各種の画面情報等を情報処理システム10から受信し、ユーザーが設定した情報を情報処理システム10に送信する。
【0053】
表示制御部32は、Webブラウザの機能を有し、各種の画面の画面情報を解釈してディスプレイ506に表示する。操作受付部33は、ディスプレイ506に表示された各種画面におけるユーザーの各種操作を受け付ける。なお、画面情報は、HTML、XML、スクリプト言語、及びCSS(Cascading Style Sheet)等で記述されたプログラムであり、主にHTMLによりWebページの構造が特定され、スクリプト言語によりWebページの動作が規定され、CSSによりWebページのスタイルが特定される。端末装置30で専用のソフトウェアが動作する場合、画面の構成は専用のソフトウェアが有しているので画面情報は画面に表示されるコンテンツでよい。
【0054】
<<機器>>
機器20は、通信部21と、表示制御部22と、操作受付部23と、画像データ生成部24と、ファクシミリ処理部25と、電子メール処理部26とを有する。これら各機能部は、機器20にインストールされた1以上のプログラムに含まれる命令を
図4に示したCPU901が実行することで実現される機能又は手段である。例えば、通信部21、表示制御部22及び操作受付部23はWebブラウザにより実現され、その他は個別のアプリケーション(ネイティブアプリ)により実現される。
【0055】
通信部21は、情報処理システム10との間で各種の情報を送受信する。本実施形態では、通信部21は、文書をスキャンするためのアプリケーションの画面情報を情報処理システム10から受信し、スキャンで生成された文書データ等を情報処理システム10に送信する。
【0056】
表示制御部22は、各種の画面の画面情報を解釈してパネル表示部940aに表示する。操作受付部23は、パネル表示部940aに表示された各種画面におけるユーザーの各種操作を受け付ける。
【0057】
画像データ生成部24は、操作受付部23が選択を受け付けたアプリケーションが画像データを生成するものである場合、スキャナ部931で原稿をスキャンして画像データ(本実施形態では、文書データ)を生成する。
【0058】
ファクシミリ処理部25は、ファクシミリ部933によるファクシミリの受信及び送信に関する処理を行い、ファクシミリを受信した場合に予め対応付けられているアプリケーションの実行を情報処理システム10に要求する。なお、ファクシミリ処理部25は、ファクシミリの送信元(FAX番号)に対応したアプリケーションを要求してもよい。ファクシミリにより文書データが受信される場合もある。
【0059】
電子メール処理部26は、電子メールの送受信に関する処理を行い、電子メールを受信した場合に予め対応付けられているアプリケーションの実行を情報処理システム10に要求する。なお、電子メール処理部26は、電子メールの送信元(メールアドレス)に対応したアプリケーションを要求してもよい。電子メールに文書データが添付される場合もある。
【0060】
<<情報処理システム>>
情報処理システム10は、通信部11、第1の抽出部12、文書分類部13、確信度算出部14、第2の抽出部15、情報抽出部16、画面提供部17、更新部18及び記憶部1000を有する。情報処理システム10が有するこれら各機能部は、情報処理システム10にインストールされた1以上のプログラムに含まれる命令を
図3に示したCPU501が実行することで実現される機能又は手段である。また、記憶部1000は、
図3に示したHD504、RAM503等に形成される。
【0061】
なお、情報処理システム10はワークフローアプリを実行する機能を有しているが、
図5では該機能について省略している。ワークフローアプリを実行する機能とは、機器20でユーザーが指定したワークフローアプリに含まれる各処理(コンポーネント)を呼び出して、順番に実行する機能である。
【0062】
通信部11は、機器20にワークフローアプリの画面情報を送信したり、機器20から文書データを受信したりする。また、通信部11は、端末装置30が表示する画面(例えば、文書データの分類結果)の画面情報を端末装置30に送信する。
【0063】
第1の抽出部12は、形態素解析を用いて文書を単語に分割する。形態素解析とは、自然言語のテキストデータから、対象言語の文法や、辞書と呼ばれる単語の品詞等の情報にもとづき、形態素の列に分割し、それぞれの形態素の品詞等を判別する作業である。形態素は、意味を有する表現要素の最小単位(例えば自立語)である。
【0064】
文書分類部13は、形態素解析で抽出された単語と、後述する文書分類用辞書情報記憶部1001に保存されている各種類の文書データが有する単語から、分類対象の文書データと各種類の文書データの類似度を算出し(所定の方法でそれらの文書データの関係を数値化し、その数値を類似度として検索対象の文書集合の中から検索条件に近い文章を選択する技術を用いる。例えば、コサイン類似度、または、ユークリッド距離による算出など。)、文書データの種類を判断する。文書データの種類を判断することは文書データをクラスに分類することに相当する。
【0065】
確信度算出部14は、文書分類部13により算出された類似度に基づいて文書データの種類の判断結果がどれくらい正しいのかを数値化する。確信度算出部14は、分類対象の文書データとの類似度が最も高い種類の確信度が閾値未満の場合、分類失敗と判断することができる。確信度としては、例えばコサイン類似度が用いられてよいが、確信度の算出方法は特に限定しない。例えば、確信度は、ユークリッド距離により算出されてもよい。なお、文書分類部13による、判断結果が正しいと認識と確信できる結果(例えば分類が一意に決まるなど)の場合には、確信度算出部14の処理を省略し、文書分類部13の処理のみで実現してもよい。
【0066】
第2の抽出部15は、所定の条件に基づいて文書データから抽出された単語を解析することで、文書データから企業名を抽出する。所定の条件については
図9にて後述する4つの条件がある。詳細は後述するが、その1つとして、企業名を抽出する方法として辞書などに登録されている企業名を使用する方法がある。本実施形態では、ラベル付きクラス情報記憶部1003に発行元の企業名が登録されている。なお、第2の抽出部15が検索する辞書等は企業名に限らず、団体名、氏名(個人名)又は宛名等、各種の名称を抽出できるものであってもよい。
【0067】
情報抽出部16は、抽出された企業名と、企業名等の周囲(例えば企業名の前後5文字、上下1行等)のキーワードとを用いて所定の情報(受領先又は発行元の少なくとも一方)を抽出する。情報抽出部16は、ラベル付きクラス情報記憶部1003に保存されている文書データと、分類対象の文書データとの類似度から発行元を判断することもできる。なお、企業名等の特定の文字列の周囲から抽出する文字列の探索として、情報抽出部16は、既存の方法を利用することができ、例えばWebスクレイピング(ウェブサイトから情報を抽出する技術)などにより抽出した情報から、企業名等の入力フィールドの近隣に配置された文字列を探索できる。
【0068】
画面提供部17は、Webアプリの画面構成情報(アプリケーションの実行画面)を機器20に送信したり、端末装置30が表示する画面を端末装置30に提供したりする。画面提供部17と端末装置30は連携してWebアプリを実行する。Webアプリとは、Webブラウザ上で動作するプログラミング言語(例えばJavaScript(登録商標))によるプログラムとWebサーバー側のプログラムが協調することによって動作するアプリケーションである。これに対し、端末装置30にインストールされなければ実行されないアプリケーションをネイティブアプリという。端末装置30で実行されるアプリケーションはネイティブアプリでもよい。
【0069】
更新部18は、ユーザーが分類結果を確認し、修正した場合に、文書分類用辞書情報記憶部1001のTF値を更新する。更新部18が、正しい分類先の各単語のTF値を大きくすることで、次回の分類時に、正しく分類されるようになる。同様に、更新部18は、ユーザーが受領発行判断の結果を確認し、修正した場合に、ラベル付きクラス情報記憶部1003のTF値を更新する。更新部18が、正しい発行元のTF値を大きくすることで、次回の受領発行判断時に、正しく判断されるようになる。
【0070】
<<記憶部>>
記憶部1000は、文書データの分類に必要な情報や企業名特定に必要な情報として、文書分類用辞書情報記憶部1001、形態素解析用辞書情報記憶部1002、及び、ラベル付きクラス情報記憶部1003を有している。このうち、形態素解析用辞書情報記憶部1002は、いわゆるコーパスであり、基本的な日本語の文法(文章が単語分割され、出現形、読み、終止形、品詞の情報が付与されている)、常用される文系、専門用語などの固有名詞等が格納されている。第1の抽出部12は形態素解析用辞書情報記憶部1002として既存のものを利用できる。
【0071】
図6は、文書分類用辞書情報記憶部1001に保存される文書分類用辞書情報の一例を示す。
図6は、文書分類用辞書情報をわかりやすくイメージさせるものであり、必ずしも実用されるものと同じではない。
【0072】
文書分類用辞書情報記憶部1001には、文書データの種類ごとに、単語リスト、TF値、IDF値、TF-IDF値が対応付けられている。
【0073】
文書データの種類は、例えば、請求書、領収書、納品書、又は発注書(総称して帳票と呼ばれることもある)など企業で使用される文書の種類である。なお、管理者等がある程度の数の文書データについて予め正しい種類に分類しておくようにしてもよい。
【0074】
単語リストは、同じ種類に分類された文書データから形態素解析により抽出された単語のリストである。
図6では主に名詞が抽出されているが、動詞、形容詞、形容動詞なども抽出可能である。
【0075】
TF(Term Frequency)値は、単語の出現頻度である。TF値は、各単語の数を同じ種類内の全ての単語の数で割った値である。
【0076】
IDF(Inverse Document Frequency)値は、単語のクラス間でのレア度(例えば、各文書である単語がどのくらい出現頻度が低いかなど)である。IDF値は、文書の種類の数を、各単語が含まれる種類の数で割った値の自然対数である。
【0077】
TF-IDF値は、TF値とIDF値を掛けた値である。TF-IDF値が大きいとその単語は分類上、重要であると判断される。このTF-IDF値は文書分類時に使用される特徴ベクトルであり、特徴ベクトルのうち値が大きい要素はコサイン類似度への影響も大きくなる。
【0078】
図7は、ラベル付きクラス情報記憶部1003に記憶されているラベル付きクラス情報を示す。ラベル付きクラス情報は、発行元が既知の文書データである。また、文書データからは単語が抽出されており、単語に対応付けてTF値が算出されている。
図7のTF値は、「おひさま商事株式会社が発行した請求書」というクラスの生成の特徴ベクトルとなる。「おひさま商事株式会社」が企業名であり、この企業が発行元であること及び請求書であることがラベルである。
【0079】
図7のようなラベル付きクラス情報が企業(発行元)ごとかつ文書データの種類ごとにラベル付きクラス情報記憶部1003に保存されている。例えば、おひさま商事株式会社が発行した請求書、ジャパンRが発行した請求書等ごとに単語のTF値が算出されている。
【0080】
<処理について>
次に、
図8を参照して、文書データの分類と所定の情報の抽出について説明する。
図8は、文書分類部13が文書データを分類し、所定の情報を抽出する処理を説明するフローチャート図である。
【0081】
機器20においてユーザーがワークフローアプリを実行し、文書をスキャンして文書データを生成する。情報処理システム10の通信部11が機器20から文書データを受信すると、まず、第1の抽出部12が文書データにOCR処理を行い、テキストデータに変換する。第1の抽出部12は形態素解析用辞書情報記憶部1002を使用して形態素解析を行うことで単語を抽出する(S1)。抽出される単語は、名詞を含むことが好ましい。
【0082】
次に、文書分類部13は、文書分類用辞書情報記憶部1001を使用して、文書データを分類する(S2)。すなわち、文書分類部13は、分類対象の文書データのTF-IDF値を算出し、文書分類用辞書情報記憶部1001が有する各種類の文書データから算出されたTF-IDF値とのコサイン類似度を算出する。文書分類部13は、コサイン類似度が最も大きいクラスに文書データを分類する。確信度算出部14は、最も大きいコサイン類似度が閾値未満の場合、分類失敗と判断してもよい。コサイン類似度は-1~+1の値をとるが、-1は完全逆相関、0が無相関、+1が完全相関なので、閾値は例えば0.4~0.7程度とすること考えられる。相関ありとは、2つのデータの相関が正の値を示すことをいう。無相関とは2つのデータが互いに独立であることをいう。逆相関とは2つのデータの相関が負の値を示すことをいう。
【0083】
次に、第2の抽出部15は、分類対象の文書データから企業名を抽出する(S3)。ステップS3の処理の詳細を
図9にて説明する。
【0084】
次に、情報抽出部16は、分類対象の文書データから所定の情報を抽出することで、発行元又は受領先を判断する(S4)。ステップS4の処理の詳細を
図10にて説明する。
【0085】
ユーザーは任意のタイミングで端末装置30を情報処理システム10にアクセスさせ、文書データの分類結果と受領発行判断の結果(所定の情報の抽出結果)を確認する(S5)。なお、後述するようにユーザーは、機器20の操作パネルに表示された確認修正画面を介して確認してもよい。
【0086】
文書データの分類結果又は受領発行判断の結果が誤っている場合(S5のYes)、ユーザーは端末装置30に正しい分類結果又は受領発行判断を入力する。端末装置30の操作受付部33が受け付けた分類結果又は受領発行判断の修正内容は端末装置30の通信部31が情報処理システム10に送信する。
【0087】
情報処理システム10の通信部11は修正内容を受信し、更新部18は修正内容に応じて、文書分類用辞書情報記憶部1001及びラベル付きクラス情報記憶部1003を更新する(S6)。更新の詳細については
図15にて説明する。
【0088】
<<企業名の抽出>>
図9は、ステップS3の処理で行われる企業名の抽出を詳細に説明するフローチャート図である。
図9のステップS11~S14が所定の条件に相当する。
【0089】
第2の抽出部15は、自然言語処理を使用して登録企業曖昧抽出を行う(S11)。自然言語処理は、形態素解析、構文解析(分節感の係り受け構造を発見してツリー化)、及び、意味解析(辞書に基づいた意味を利用して正しい意味の文を認識)等を行うことをいう。第2の抽出部15は、意味解析の結果から企業名を抽出できる。より具体的に、ここではN-gram方式を用いて登録企業曖昧抽出を説明する。
N-gram方式は、表記揺れや誤認識文字に対応した索引型の自然言語処理である。第2の抽出部15は、企業辞書(名称辞書の一例)に部分一致する企業名を作成したN-gramで検索する。企業辞書としてはラベル付きクラス情報記憶部1003が使用されてもよいし、汎用的なものが使用されてもよい。また、予め取引先の企業名がリスト化されていてもよい。
【0090】
N-gram方式とは、文書データを文字単位で分解して、インデックス(文字列)を生成する方式である。Nは索引のために抽出される文字数である。Nは固定でもよいし可変でもよい。例えば「太郎はりんごを買った」というテキストデータの3-gramは「太郎 は りんご」「は りんご を」「りんご を 買」「を 買 った」である。第2の抽出部15は、N-gram方式で抽出されたインデックス(文字列)で企業辞書を検索することで企業名を抽出する。企業名を抽出できた場合、
図9の処理は終了し、企業名を抽出できない場合、処理はステップS12に進む。
【0091】
次に、第2の抽出部15は、汎用抽出を行う(S12)。汎用抽出とは、「(株)」、「株式会社」、「御中」等のキーワードを文書データから検出し、キーワードの前後の固有名詞を抽出する処理である。固有名詞は形態素解析用辞書情報記憶部1002に記憶されているので、第2の抽出部15はキーワードの前又は後の固有名詞を企業名として抽出する。企業名を抽出できた場合、
図9の処理は終了し、企業名を抽出できない場合、処理はステップS13に進む。
【0092】
次に、第2の抽出部15は、類似文書集合抽出を行う(S13)。類似文書集合抽出とは、個社の過去類似文書から企業情報を抽出する処理である。すなわち、第2の抽出部15は、発行元又は受領先の企業名が分かっている個社の過去の文書データのうち、分類対象の文書データとの類似度が閾値以上の文書データを特定する。第2の抽出部15は、特定された文書データに対応付けられている企業名を、分類対象の文書データの企業名として抽出する。企業名を抽出できた場合、
図9の処理は終了し、企業名を抽出できない場合、処理はステップS14に進む。
【0093】
次に、第2の抽出部15は、個社企業曖昧抽出を行う(S14)。個社企業曖昧抽出とは、個社ごとの登録済み企業辞書を用いた全文曖昧検索方式で企業名を抽出する処理である。すなわち、第2の抽出部15は、発行元又は受領先の企業名が分かっている過去の文書データの単語辞書を、分類対象の文書データの各単語の全てで検索する。第2の抽出部15は、例えば全ての単語の一致率(例えば、単語全体の文字の中で一致する文字数の割合など)が最も高い個社の企業名を、分類対象の文書データの企業名として抽出してもよいが、これに限らない。第2の抽出部15は、例えば無作為(任意)に抽出した複数の単語のうち一致率が一定以上の個社の企業名を、分類対象の文書データの企業名として抽出してもよい。
【0094】
<<所定の情報の抽出>>
図10は、
図8のステップS4の処理の所定の情報の抽出を詳細に説明するフローチャート図である。所定の情報は、例えば、文書データの発行元又は受領先の少なくとも一方とする。発行元は、ユーザー自身が発行した場合は自社で(受領先は他社)、他社が発行した場合は他社(受領先は自社)とする。つまり、発行元と受領先はどちらかが分かれば他方は一意に定まるが、例えば3社以上の複数の企業間によるものの場合には、ある特定の一社を自社、その他を他社とするなどでもよい。
【0095】
情報抽出部16は、汎用判断を行う(S21)。汎用判断とは、「御中」、「様」、「宛」、「殿」、「行き」、「各位」、「殿」などのキーワードから、所定の情報を抽出する処理である。例えば、機器20が受領した文書データの場合、ステップS3で抽出された企業名が「御中」という単語の近く(例えば御中の直前に企業名がある)にある。情報抽出部16は、企業名の近く(例えば直後)に「御中」がある場合、受領した文書であると判断する。
【0096】
また、情報抽出部16は、ユーザーが所属するテナント情報と照らし合わせ、抽出した企業名がテナント名(ユーザーの属する企業等を示すユーザー属性情報である。)と一致する場合、抽出した企業名が受領先であると判断する。すなわち、A社とB社が文書データから抽出され、ユーザーが所属するテナント名がA社の場合、A社が受領先である。ユーザーが所属するテナント情報は、ユーザーが機器20から情報処理システム10にIDとパスワード又は生体認証情報(顔画像や指紋など)などと共に認証を要求し、認証が成功する(ログインする)ことで特定されている。
【0097】
所定の情報を抽出できた場合、
図10の処理は終了し、所定の情報を抽出できない場合、処理はステップS22に進む。
【0098】
次に、情報抽出部16は、類似文書集合判断を行う(S22)。類似文書集合判断とは、個社ごとの過去の類似文書から発行元企業を判断する処理である。すなわち、情報抽出部16は、ラベル付きクラス情報記憶部1003に記憶されている、発行元の企業が分かっている個社の過去の文書データうち、分類対象の文書データとの類似度が閾値以上の文書データを特定し、当該企業を発行元と判断する。
【0099】
以上の処理で、文書データから所定の情報が抽出され、文書データの発行元又は受領先が特定された。文書データには発行元又は受領先の少なくとも一方が対応づけられてラベル付きクラス情報記憶部1003に保存される。
【0100】
ステップS22で発行元の企業が特定されない場合、画面提供部17は抽出失敗を機器20に通知する(S23)。この場合、
図8の処理も終了する。
【0101】
<ユーザーによる確認と修正>
ユーザーは、機器20でスキャンした文書データの分類結果と受領発行判断の結果を確認することができる。ユーザーは端末装置30を情報処理システム10にアクセスさせ、文書データの分類結果と受領発行判断の結果を表示させる操作を入力する。これにより端末装置30が確認修正画面を表示する。
ユーザーは機器20を情報処理システム10にアクセスさせ、文書データの分類結果と受領発行判断の結果を表示させてもよい。これにより機器20が確認修正画面を表示する。
【0102】
図11は、端末装置30が表示する確認修正画面200を示す。情報抽出部16が発行元を抽出できなかった場合、この確認修正画面200でユーザーが発行元を追加することができる。
【0103】
確認修正画面200は、プレビュー欄201と分類結果欄202を有している。プレビュー欄201には、スキャンにより生成された文書データのイメージが表示される。プレビュー欄201に「請求書(符号は208)」と記載されているので、スキャンされた文書は請求書である。
【0104】
分類結果欄202には、文書データの種類203、文書名204、発行元情報205が表示される。文書データの種類203は、文書分類部13が分類した文書データの種類(例えば、請求書、領収書、納品書、又は発注書等)である。文書名204は、機器20が文書をスキャンして生成した文書データのファイル名である(機器20が日付等をファイル名とすると共にユーザーが編集できる)。発行元情報205は、情報抽出部16が取得した所定の情報である。つまり、発行元情報205は、請求書を発行した企業名である。分類結果欄202に受領先が表示されてもよい。
【0105】
分類結果欄202は編集ボタン206,207を有している。ユーザーが編集ボタン206を押下すると、文書データの種類のリストが表示され、正しい文書データの種類を選択できる。文書データの種類のリストは、文書分類用辞書情報記憶部1001に登録されている文書データの種類である。ユーザーが編集ボタン207を押下すると、文字の入力欄が表示され、ユーザーは発行元情報を修正できる。ラベル付きクラス情報記憶部1003に登録されている発行元の企業名のリストが表示され、その中からユーザーが選択できてもよい。
【0106】
<文書データから抽出される所定の情報の一例>
具体的な文書データを用いて文書データから抽出される所定の情報の例を説明する。ここでは、ジャパンR産業株式会社のAさんが、おひさま商事株式会社が発行した以下の文書を機器20でスキャンした場合に抽出される所定の情報について説明する。
【0107】
図12(a)は、スキャンにより生成された文書データの画像データを示す。
図12(b)は、
図12(a)の文書データに対してOCR、形態素解析、及び企業名抽出により抽出された単語を示す。第2の抽出部15は、「ジャパンR産業株式会社」、「おひさま商事株式会社」を抽出する。なお、企業名の抽出に失敗した場合(何も取れなかった場合)は、画面提供部17が抽出に失敗したことを確認修正画面200でユーザーに通知する。
【0108】
情報抽出部16は、「ジャパンR産業株式会社」、「おひさま商事株式会社」のどちらが発行元なのかを判別する。
図12の例の場合、「御中」という単語の直前に「ジャパンR産業株式会社」があるので汎用抽出(
図10のS21)により「ジャパンR産業株式会社」が受領先と判別される。同時に「おひさま商事株式会社」が発行元だと判別される。このように文書データに2つの企業名がある場合、情報抽出部16は、受領先と判断しない方の企業名を発行元と判断することができる。
【0109】
<文書分類用辞書情報記憶部の更新>
次に、
図13を参照し、文書分類に使用される文書分類用辞書情報記憶部1001の更新について説明する。
図13は、
図6の文書分類用辞書情報記憶部1001を簡略化して示す。
図13の文書分類用辞書情報記憶部1001は、各文書データから抽出された単語ごとに算出されたTF値を有する。
図13では、「株式会社」のTF値が0.01、「請求書」のTF値が0.0015である。
図13のTF値は、「請求書」という種類の文書データから生成された特徴ベクトルである。例えば請求書、領収書、納品書、発注書等の文書データの種類ごとに
図13のような特徴ベクトルが存在する。
【0110】
<<修正内容の反映>>
確認修正画面200に示したように、ユーザーは分類結果又は受領発行判断の結果に対して確認及び修正を行うことができる。修正が行われた場合、該当の文書分類用辞書情報記憶部1001及びラベル付きクラス情報記憶部1003の内容も更新される。
【0111】
図14は、文書分類用辞書情報記憶部1001とラベル付きクラス情報記憶部1003の更新処理を説明するフローチャート図である。ユーザーが確認修正画面200で分類結果を修正した場合、情報処理システム10の通信部11が修正後の文書データの種類を端末装置30から受信する。更新部18は、分類結果の修正があったか否かを判断する(S31)。
【0112】
分類結果に修正があった場合(S31のYes)、更新部18は、スキャンした文書データから抽出された単語と、文書分類用辞書情報記憶部1001に登録されている正しい種類の単語を比較し、合致した単語のTF値に対してポイント(値の一例)を加算する(S32)。こうすることで、次回、文書分類部13が文書データを分類する場合に、正しい種類の文書データとのコサイン類似度を大きくできる。詳細を
図15にて説明する。なお、加算されるポイントは、例えば加算前の例えば50%などでよい。
あるいは、更新部18は、判断するための優先度を示すフラグを合致した単語に設定しでもよい。これにより、合致した単語は優先してコサイン類似度を算出されるので、分類対象の文書データが正しく分類されやすくなる。
【0113】
また、ユーザーが確認修正画面200で発行元を修正した場合、情報処理システム10の通信部11が修正後の発行元を端末装置30から受信する。更新部18は、発行元の修正があったか否かを判断する(S33)。
【0114】
発行元に修正があった場合(S33のYes)、更新部18は、スキャンした文書データから抽出された単語と、ラベル付きクラス情報記憶部1003において修正後の発行元の文書データが含む単語とを比較し、合致した単語のTF値に対してポイントを加算する(S34)。こうすることで、次回の類似文書集合判断において(
図10のS22)、分類対象の文書データと、ラベル付きクラス情報記憶部1003の文書データとのコサイン類似度が大きくなり、正しい発行元を特定しやすくなる。
【0115】
図15は、文書分類用辞書情報記憶部1001の更新を説明する図である。
図15(a)は文書データのイメージである。この文書データの種類は、正しくは「請求書」だが「納品書」と判断されている。
【0116】
図15(b)は更新前の文書分類用辞書情報を示し、
図15(b)は更新後の文書分類用辞書情報を示す。更新部18は、分類対象の文書データから抽出された単語と一致する文書分類用辞書情報の単語のTF値を決められた分だけ大きくする。
図15(b)(c)では、「請求書」のTF値が0.005大きくなり、「請求番号」のTF値が0.002大きくなっている。例えば、更新部18は、分類対象の文書データから抽出された単語に対応付けられているTF値の50%(小数第4位切り捨て)を上記のポイントとして元のTF値に加算することでTF値を大きくする。なお、分類対象の文書データから抽出された単語の数が多いほど(数に比例させて)、大きなポイントを元のTF値に加算してもよい。
前述の通り、優先度フラグを設定する場合は、TF値を変えずに該当する単語に優先度を示すフラグ(識別情報)が設定されるようにしてもよい。
【0117】
ラベル付きクラス情報記憶部1003についても同様に、更新部18は修正された発行元に対応付けられている文書データから抽出された各単語のTF値を大きくすることができる。
【0118】
<主な効果>
以上説明したように、本実施形態の情報処理システム10は、分類対象の文書データから企業名等を抽出する。情報処理システム10は、文書データから「御中」等のキーワードを検出したり、ラベル付きクラス情報との類似度を比較したりすることで、所定の情報(発行元又は受領先)を抽出できる。これによって、請求書、領収書、納品書、又は発注書など、企業間取引においてやり取りされる電子化されたさまざまな文書データについて、実際に文書を開くなどの処理を行わず、より効率的に発行元や受領者を特定することができる。
【0119】
<その他の適用例>
文書データは、上記の書類に限らない。例えば、社外への営業や企画などでは、相手先別に、プレゼン資料などの提案資料をはじめとする書面でのやり取りが発生する。このような場合においても、相手先別の書類分類として本システムが適用可能である。本システムによれば、例えば、提案資料において、「御中」や「殿」、「様」などが前後にある文字列が提案先、それ以外の会社名等が提案元と抽出することができる。これにより、効率的な相手先別の書類管理が可能となる。
また、例えば医療業界においては、院外処方箋を受け付ける各薬局において、患者が持ち込んだ処方箋に対しても本システムを適用可能である。具体的には、患者は病院など医療機関において診療を受けた後、院外処方箋が発行される。
患者が処方箋を持ち込む薬局は、自身の掛かり付けの薬局や、当該病院の近隣の薬局など、患者ごとに選択することが可能である。その際、処方箋を受け付ける薬局では、様々な病院が発行した処方箋を受け取る。院外薬局としては患者が直接紙媒体として処方箋を持参する場合もあれば、FAXやメールなどで医療機関から送られてくる場合もある(その場合も最終的には紙媒体の原本を受け付ける)。院外薬局では、その原本をスキャンしたり、電子データを保存したりすることによって管理することもできるが、その受領者及び発行元を効率的に区別することが望まれる。本システムによれば、例えば、処方箋に記載の「氏名」という文字が前にある文字列を病院からの処方箋の受領先(すなわち患者の氏名)、それ以外を発行元(すなわち医療機関)と抽出することができる。これによって、院外薬局など処方箋を受け付けた場合の文書データに対する効率的な管理が可能となる。
以上、本発明を実施するための最良の形態について実施例を用いて説明したが、本発明はこうした実施例に何等限定されるものではなく、本発明の要旨を逸脱しない範囲内において種々の変形及び置換を加えることができる。
【0120】
例えば、本実施形態では、機器20が文書データを情報処理システム10に送信すると説明したが、情報処理システム10は文書データを端末装置30から受信してもよい。この他、情報処理システム10は、文書データをどこから取得してもよい。
【0121】
また、本実施形態では、TF-IDFを用いて文書データをベクトル化したが、Doc2vec、FastText 、ELMo 、BERT 、WMD(Word Mover's Distance)等が使用されてもよく、文書データのベクトル化方法を制限するものではない。
【0122】
また、本実施形態では、機器20がスキャンして生成した文書データ(画像データ)から単語が抽出されたが、文書データは予めテキストデータを有していてもよい。すなわち、文書データはOCR処理されたものでなくてもよい。したがって、文書データは、ワープロソフトのファイル、PDFファイル、Webページなどでもよい。
【0123】
また、本実施形態では、日本語を例にして説明したが、文書データに記載された言語は英語、中国語、スペイン語、アラビア語、フランス語等、どの言語でもよい。
【0124】
また、
図5などの構成例は、端末装置30、機器20、及び情報処理システム10による処理の理解を容易にするために、主な機能に応じて分割したものである。処理単位の分割の仕方や名称によって本願発明が制限されることはない。端末装置30、機器20、及び情報処理システム10の処理は、処理内容に応じて更に多くの処理単位に分割することもできる。また、1つの処理単位が更に多くの処理を含むように分割することもできる。
【0125】
また、実施例に記載された装置群は、本明細書に開示された実施形態を実施するための複数のコンピューティング環境のうちの1つを示すものにすぎない。ある実施形態では、情報処理システム10は、サーバクラスタといった複数のコンピューティングデバイスを含む。複数のコンピューティングデバイスは、ネットワークや共有メモリなどを含む任意のタイプの通信リンクを介して互いに通信するように構成されており、本明細書に開示された処理を実施する。
【0126】
更に、情報処理システム10は、本実施形態で開示された処理ステップ、例えば
図8等を様々な組み合わせで共有するように構成できる。例えば、所定のユニットによって実行されるプロセスは、情報処理システム10が有する複数の情報処理装置によって実行され得る。また、情報処理システム10は、1つのサーバー装置にまとめられていても良いし、複数の装置に分けられていてもよい。
【0127】
上記で説明した実施形態の各機能は、一又は複数の処理回路によって実現することが可能である。ここで、本明細書における「処理回路」とは、電子回路により実装されるプロセッサのようにソフトウェアによって各機能を実行するようプログラミングされたプロセッサや、上記で説明した各機能を実行するよう設計されたASIC(Application Specific Integrated Circuit)、DSP(Digital Signal Processor)、FPGA(Field Programmable Gate Array)や従来の回路モジュール等のデバイスを含むものとする。
【0128】
<請求項に関する付記>
[請求項1]
文書データの種類を判断する情報処理システムであって、
前記文書データから単語を抽出する第1の抽出部と、
所定の条件に基づいて前記単語を解析することで前記文書データから所定の情報を抽出する情報抽出部と、
を有する情報処理システム。
[請求項2]
前記所定の情報は、前記文書データの発行元、又は、受領先の少なくとも一方であることを特徴とする請求項1に記載の情報処理システム。
[請求項3]
前記所定の条件として、前記文書データか自然言語処理 で抽出した文字列を、記憶部から 検索することにより名称を抽出する第2の抽出部 を有し、
前記情報抽出部は、前記名称と前記単語に基づいて前記所定の情報を抽出することを特徴とする請求項1に記載の情報処理システム。
[請求項4]
前記所定の条件として、特定のキーワードの前後の固有名詞を名称として抽出する第2の抽出部を有し、
前記情報抽出部は、前記名称と前記単語に基づいて前記所定の情報を抽出することを特徴とする請求項1に記載の情報処理システム。
[請求項5]
前記所定の条件として、名称に対応付けられている過去の文書データと前記文書データとの類似度に基づいて前記名称を抽出する第2の抽出部を有し、
前記情報抽出部は、前記名称と前記単語に基づいて前記所定の情報を抽出することを特徴とする請求項1に記載の情報処理システム。
[請求項6]
前記所定の条件として、名称に対応付けられている過去の文書データが含む単語辞書を、前記文書データから抽出された単語で検索し、一致率が最も高い前記単語辞書に対応付けられている前記名称を抽出する第2の抽出部を有し、
前記情報抽出部は、前記名称と前記単語に基づいて前記所定の情報を抽出することを特徴とする請求項1に記載の情報処理システム。
[請求項7]
前記情報抽出部は、前記名称と前記単語に基づいて、前記名称が受領先か発行元かを判断することを特徴とする請求項3~6のいずれか1項に記載の情報処理システム。
[請求項8]
前記情報抽出部は、前記名称の後に特定のキーワードがある場合、前記名称が受領先であると判断することを特徴とする請求項7に記載の情報処理システム。
[請求項9]
前記キーワードは、御中、様、宛、殿、又は、行きのうち少なくとも1つを含むことを特徴とする請求項8に記載の情報処理システム。
[請求項10]
前記情報抽出部は、前記文書データに2つの前記名称がある場合、前記受領先と判断しない方の前記名称を発行元と判断することを特徴とする請求項7~9のいずれか1項に記載の情報処理システム。
[請求項11]
前記情報抽出部は、前記情報処理システムにより認証が成功した、ユーザー属性情報と一致する前記名称が前記文書データから抽出された場合、前記名称を前記受領先と判断することを特徴とする請求項7に記載の情報処理システム。
[請求項12]
前記文書データの種類の判断結果を端末装置に表示させる画面提供部と、
前記端末装置から修正後の前記文書データの種類が送信された場合、文書データの分類結果を前記端末装置から送信された修正後の前記文書データの種類に更新する更新部と、
を有することを特徴とする請求項7~11のいずれか1項に記載の情報処理システム。
[請求項13]
前記端末装置から送信された修正後の前記文書データの種類に対応付けられており、かつ、分類対象の文書データから抽出された単語 の出現頻度に関わる値が更新された場合、
前記更新部は、次回、前記文書データの種類を判断する際、更新された前記値に基づいて前記文書データの種類を判断する文書分類部を有することを特徴とする請求項12に記載の情報処理システム。
【符号の説明】
【0129】
10 情報処理システム
20 機器
30 端末装置
40 外部サービスシステム
100 サービス提供システム
【先行技術文献】
【特許文献】
【0130】