IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ カシオ計算機株式会社の特許一覧

特開2024-172025情報処理装置、情報処理方法及びプログラム
<>
  • 特開-情報処理装置、情報処理方法及びプログラム 図1
  • 特開-情報処理装置、情報処理方法及びプログラム 図2
  • 特開-情報処理装置、情報処理方法及びプログラム 図3
  • 特開-情報処理装置、情報処理方法及びプログラム 図4
  • 特開-情報処理装置、情報処理方法及びプログラム 図5
  • 特開-情報処理装置、情報処理方法及びプログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024172025
(43)【公開日】2024-12-12
(54)【発明の名称】情報処理装置、情報処理方法及びプログラム
(51)【国際特許分類】
   G06F 16/35 20190101AFI20241205BHJP
【FI】
G06F16/35
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2023089438
(22)【出願日】2023-05-31
(71)【出願人】
【識別番号】000001443
【氏名又は名称】カシオ計算機株式会社
(74)【代理人】
【識別番号】110001254
【氏名又は名称】弁理士法人光陽国際特許事務所
(72)【発明者】
【氏名】上坂 重樹
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA01
5B175FA03
(57)【要約】
【課題】ユーザによる電子文書データの分類に要する手間を低減することのできる情報処理装置、情報処理方法及びプログラムを提供する。
【解決手段】情報処理装置は、電子文書から1行ごとに抜き出した行に基づいて対象文字列を生成し、生成された対象文字列と所定の文字列とを比較した比較の結果に基づいて電子文書の分類先候補を出力する処理を行う処理部を備える。処理部は、抜き出した行に空白が含まれる場合には行から空白を削除して対象文字列を生成する。
【選択図】図2
【特許請求の範囲】
【請求項1】
電子文書から1行ごとに抜き出した行に基づいて対象文字列を生成し、生成された前記対象文字列と所定の文字列とを比較した比較の結果に基づいて前記電子文書の分類先候補を出力する処理を行う処理部を備え、
前記処理部は、抜き出した前記行に空白が含まれる場合には当該行から空白を削除して前記対象文字列を生成する情報処理装置。
【請求項2】
前記処理部は、電子文書の先頭の行から予め定められた行数だけ、前記処理を行う、請求項1記載の情報処理装置。
【請求項3】
前記処理部は、除外対象が前記対象文字列に含まれる場合に、前記対象文字列の前記出力の優先度を下げる、請求項1記載の情報処理装置。
【請求項4】
前記処理部は、前記電子文書が予め定められた位置に記憶された場合に、当該電子文書に対する前記処理を行う、請求項1記載の情報処理装置。
【請求項5】
前記位置は、電子メールに添付された文書が格納される設定位置である、請求項4記載の情報処理装置。
【請求項6】
前記電子文書は、電子帳簿に係る書類である、請求項1記載の情報処理装置。
【請求項7】
前記処理部は、前記電子文書から全文を抜き出して、前記全文中の改行の指定位置に基づいて前記行を各々決定する、請求項1記載の情報処理装置。
【請求項8】
前記処理部は、前記対象文字列を生成するときに、文字サイズが最大である文字が含まれる行を抜き出す、請求項1記載の情報処理装置。
【請求項9】
表示部と、操作受付部と、を備え、
前記処理部は、
前記分類先候補を前記表示部により表示させ、
前記操作受付部が受け付けた入力操作に応じた分類先に前記電子文書を分類する
請求項1記載の情報処理装置。
【請求項10】
電子文書から1行ごとに抜き出した行に基づいて対象文字列を生成し、生成された前記対象文字列と所定の文字列とを比較した比較の結果に基づいて前記電子文書の分類先候補を出力する処理を行う情報処理方法であって、
抜き出した前記行に空白が含まれる場合には当該行から空白を削除して前記対象文字列を生成する
情報処理方法。
【請求項11】
コンピュータに、
電子文書から1行ごとに抜き出した行に基づいて対象文字列を生成し、生成された前記対象文字列と所定の文字列とを比較した比較の結果に基づいて前記電子文書の分類先候補をかする処理を実行させ、
前記処理では、抜き出した前記行に空白が含まれる場合には当該行から空白を削除して前記対象文字列を生成する
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、情報処理装置、情報処理方法及びプログラムに関する。
【背景技術】
【0002】
従来、画像から文字を認識して、分類項目を取得する技術が知られている(特許文献1)。また、特許文献2には、文書の画像データから認識された文字列から元の文書でなされていた強調表示を適切に読み取る技術が開示されている。
【0003】
一方、多くの取引が電子文書により行われるようになってきている。電子文書は、ネットワークを介して迅速にやり取りされる。電子文書としては、PDF(Portable Document Format)が幅広く利用されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2008-176625号公報
【特許文献2】特開2017-126270号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
ネットワークを介して受信された電子文書のデータは、担当者が分類して処理、保管する。しかしながら、電子文書の分量が増えるのに従って、分類作業に要する担当者の手間も大きくなっているという課題がある。
【0006】
この発明の目的は、担当者による電子文書データの分類に要する手間を低減することのできる情報処理装置、情報処理方法及びプログラムを提供することにある。
【課題を解決するための手段】
【0007】
上記目的を達成するため、本発明は、
電子文書から検出する内容を記憶する記憶部と、
電子文書に含まれる文字を抜き出して順番に並べたテキストから前記内容に応じた文字列を検出し、前記文字列に対応する分類を出力する処理を行う処理部と、
を備える情報処理装置である。
【発明の効果】
【0008】
本発明に従うと、担当者による電子文書データの分類に要する手間を低減することができるという効果がある。
【図面の簡単な説明】
【0009】
図1】本実施形態の情報処理装置の機能構成を示すブロック図である。
図2】情報処理装置における文書分類の流れについて説明する図である。
図3】分類定義データを説明する図である。
図4】電子帳簿書類の先頭付近の例を示す図である。
図5】監視制御処理の制御手順を示すフローチャートである。
図6】登録ツールにより実行される文書分類制御処理の制御手順を示すフローチャートである。
【発明を実施するための形態】
【0010】
以下、本発明の実施の形態を図面に基づいて説明する。
図1は、本実施形態の情報処理装置1の機能構成を示すブロック図である。
【0011】
情報処理装置1は、通常のPC(Personal Computer)であってもよい。情報処理装置1は、CPU11(Central Processing Unit)(制御部)と、RAM12(Random Access Memory)と、記憶部13と、表示部14と、操作受付部15と、通信部16などを備える。
【0012】
CPU11は、演算処理を行うプロセッサである。CPU11は、単一であってもよいし、複数のものが並列に動作、又は用途などに応じて各々独立に動作するのであってもよい。CPU11は、汎用プロセッサだけではなく、マイコン又はASIC(Application Specific Integrated Circuit)などであってもよい。CPU11は、処理部として情報処理装置1が取得した電子文書を分類して保管する。
【0013】
RAM12は、CPU11に作業用のメモリ空間を提供し、一時データを記憶する。
【0014】
記憶部13は、不揮発性メモリを含む。不揮発性メモリは、例えば、フラッシュメモリやHDD(Hard Disk Drive)などである。不揮発性メモリには、各種プログラム及び設定データなどが記憶される。また、記憶部13は、文書データベース134を記憶している。各種プログラムには、メールソフト131と、後述の監視ツール及び登録ツールを含む文書分類のためのプログラム132とが含まれる。設定データには、電子文書から検出して当該電子文書の分類に利用する内容を定義した分類定義データ135が含まれる。ダウンロードデータ133は、外部から取得されてダウンロードフォルダ(又はディレクトリ)に記憶されたデータである。このデータには、例えば、受信した電子メールに添付されたデータ、及びHTTPにより外部のWebサイトなどからダウンロードされたデータなどが含まれる。なお、ダウンロードフォルダの名称は、他のものであってもよい。
【0015】
表示部14は、デジタル表示画面を有し、CPU11の制御に基づいて種々の情報をデジタル表示画面に表示する。デジタル表示画面は、例えば、液晶ディスプレイ(LCD)又は有機EL(Electro-Luminescent)ディスプレイなどである。
【0016】
操作受付部15は、ユーザなどの外部からの入力操作を受け付ける。操作受付部15は、受け付けられた入力操作に応じた操作信号をCPU11へ出力する。操作受付部15は、例えば、キーボード及びポインティングデバイスなどを含み得る。ポインティングデバイスには、マウスが含まれていてもよい。また、操作受付部15は、デジタル表示画面に重なって位置するタッチパネルを有していてもよい。
なお、情報処理装置1は、表示部14及び操作受付部15を有していなくてもよい。これらは、周辺機器として、USB(Universal Serial Bus)端子又はPS/2端子などの接続端子を介して情報処理装置1に外付けされていてもよい。あるいは、これらは外部機器であって、通信部16を介して情報処理装置1と通信接続されてもよい。
【0017】
通信部16は、外部機器との通信を所定の規約(プロトコル)に従って制御する。所定の規約には、例えば、LAN(Local Area Network)におけるTCP/IPなどが含まれ得る。通信部16は、ブルートゥース(登録商標)やWiFiなどの無線通信を制御するためのネットワークカードを有していてもよい。通信部16は、各々の通信規約に従って、外部機器と通信が可能であってもよい。外部機器には、上記のように表示部14及び操作受付部15の構成が含まれていてもよい。
本実施形態のコンピュータは、少なくともCPU11とRAM12とを含み、記憶部13及び通信部16などを含み得る。また、本実施形態の情報処理装置1の全体がコンピュータに対応してもよい。
【0018】
次に、本実施形態の情報処理装置1による文書分類処理について説明する。
図2は、情報処理装置1における文書分類の流れについて説明する図である。
【0019】
情報処理装置1では、電子帳簿に係る電子文書データが分類されて文書データベース134に登録される。分類対象とされる電子文書のフォーマットは、PDFファイルである。電子文書が特定のフォルダ又はディレクトリ(予め定められた位置)、例えば、ダウンロードフォルダに格納、記憶されると、監視ツールが電子文書の追加を検出する。すなわち、監視ツールは、常駐プログラムであってもよい。監視ツールは、電子文書の追加を検出すると、登録ツールを起動させる。
【0020】
登録ツールは、追加されたPDFファイルを解析する。登録ツールは、PDFファイル(電子文書)からテキスト(表示される文字;数字、記号及び標識などを含む)を1行分ずつ順番に抜き出したテキストデータを対象文字列として取得する。PDFファイルがタグ付きデータの場合には、登録ツールは、このPDFファイルを構造解析して、表示内容のテキストを全文抜き出す。登録ツールは、テキスト内で改行を指示する位置を特定して、当該位置を区切りとして、1行分のテキスト(行)ごとに分割する。登録ツールは、行に分割する際に、改行を示す制御コードやタグを削除してもよい。また、登録ツールは、全文を抜き出す際、又は行に分割する際に、対象文字列内で表示上の改行とは関係のないデータ上の改行を削除又は無視してもよい。さらに、登録ツールは、このときに抜き出したテキストに対応するタグデータからフォントサイズ、フォント種別及びフォントカラーなどの表示設定を特定してもよい。登録ツールは、抜き出された各行のテキスト(対象文字列)をそれぞれ分類定義データ135と比較して、分類定義データ135により定義されている検出内容であるキーワード(所定の文字列)を検索する。登録ツールは、検出された内容(文字列)に応じて分類先候補を抽出して、表示部14により候補を表示(出力)させる。この候補に対して操作受付部15が選択に係る入力操作を受け付けると、入力操作に応じて分類先が決定されて、PDFファイルが分類情報とともに文書データベース134に登録される。
【0021】
なお、ダウンロードフォルダには、登録すべき電子文書データ以外のファイルが記憶され得る。PDF形式以外のファイルが追加された場合には、監視ツールは、登録ツールを起動させない。PDF形式のファイルが追加されて登録ツールが起動された場合でも、ユーザは、このファイルを登録しない選択操作を行うことができる。この場合には、PDFファイルは、そのままダウンロードフォルダに残され、他の任意の用途などに用いられ得る。
【0022】
また、監視ツールは、ダウンロードフォルダ以外の設定されたフォルダ(設定位置)に追加される新規ファイルを監視するのであってもよい。電子帳簿に係るPDFファイルが他のファイルとは異なる専用フォルダに一時記憶されることで、分類が必要なファイルが記憶された場合にのみ登録ツールが起動される。
【0023】
また、PDFファイルは、テキスト部分を含めて表示内容が全て画像データである場合がある。この場合には、登録ツールは、電子帳簿データではないと判断してもよい。あるいは、登録ツールは、周知の文字認識技術を利用して、画像からテキストを読み取ってもよい。この場合、登録ツールは、テキストの内容とともに、各文字のフォントサイズ、フォント種別及びフォントカラーなどを読み取ってもよい。
【0024】
図3は、分類定義データ135を説明する図である。
図3(a)に示すように、分類項目(キー)には、電子文書の表題に応じた文書種別が含まれ得る。「見積書」、「請求書」、「注文書」などは、表題(タイトル)がそのまま電子文書の分書種別(キー)に係る分類種別を表す文字列(キーワード)であり得る。表題は、文書の先頭にあることが多いので、文書の先頭付近で優先的にこれらの文字列が検索されてもよい。あるいは、文書の先頭の行から予め定められた行数、例えば、1行目から3行目までの3行だけで、これらの文字列が検索されてもよい。また、上記のように構造解析により表示設定が取得されている場合には、特定の表示設定、例えば、フォントサイズが他の部分よりも大きい行で優先的に又は選択的に文字列を検索してもよい。
【0025】
また、このような表題では、しばしば各文字の間にスペース(空白。全角半角、数を問わない。また、タブなどによるもの、タグによって空白両脇の文字の位置が別個に指定されたものなども含まれる)が挿入されている。登録ツールは、抽出したテキスト(全文まとめて又は行ごと)からこのスペースを削除して、検出内容が検索される対象の文字列(対象文字列)を特定(生成)する。テキスト内にスペースがない場合には、行のテキストがそのまま対象文字列とされればよい。テキストが一行ごとに区分されることで、対象文字列では、複数の行の文字が不必要につながらない。
【0026】
「注文書」及び「発注書」は、異なる表題であるが、文書としては同種のものである。したがって、ここでは、分類定義データ135においてカンマにより区切られて同一行に記載されることで、同一分類とされる。
【0027】
図3(b)に示すように、分類は、また、書類の自社(団体)からの宛先又は自社(団体)への発送元など取引先種別に応じてなされ得る。すなわち、取引先種別を分類項目(キー)として、宛先又は発送元を表す法人の名称が分類のキーワードであってもよい。宛先は、文書の上部にあることが多いが、先頭には限られない。情報処理装置1(登録ツール)は、抽出したテキストから宛先に含まれることの多い法人の種別を含む文字列(キーワード)を検出する。法人の種別は、例えば、株式会社、有限会社、合名会社、合資会社、相互会社、合同会社などであり、しばしば「(株)」などのように括弧付きで省略表記され得る。登録ツールは、これらの文字列の候補を正規表現により予め設定しておくことで、宛先の候補を検索する。また、宛先候補の文字列と同一行内の「御中」、「様」、「送付先」、「送付元」などは、通常、取引先の名称ではない。したがって、これらは、法人の種別の候補を表す文字列から除外する用語(除外ワード)、又は候補の先頭又は末尾を示す用語として予め設定され得る。ユーザは、予め設定されていない法人の種別を分類定義データ135に追加設定することができてもよい。
【0028】
取引先の法人が営利会社などではないことが多い場合には、図3(c)に示すように、「法人」が含まれる名称を検出対象の法人の種別とする設定がなされてもよい。この場合の法人の種別には、例えば、社団法人、財団法人、NPO法人(非営利活動法人)、学校法人、医療法人、独立行政法人、社会福祉法人などが含まれ得る。
【0029】
更に、図3(d)に示すように、法律又は経理などと関係が強い場合には、例えば、弁護士法人、税理士法人、弁理士法人、司法書士法人、行政書士法人、及び法律事務所、法務事務所、会計事務所、税理士事務所、司法書士事務所、行政書士事務所などを検索可能な正規表現を分類定義データ135に設定することができる。また、情報処理装置1は、図3(b)~図3(d)の設定を全て有し、ユーザが必要なもののみが選択的に利用されてもよい。その他、日本国外との取引が多い場合などには、例えば、LLC, Co. Ltd., Inc.,などが分類定義データ135に設定されてもよい。
【0030】
このような正規表現を用いた文字列の検索では、取引先だけではなく、自社(団体)の法人名などが併せて検出されやすい。登録ツールは、選択から除外する自社、仲介業者や金融機関などを除外対象として、除外対象をまとめた除外リストを保持していてもよい検出された法人のうち、除外リストに含まれる除外対象は、分類種別の候補としての優先順位が下げられる。あるいは、除外対象は、完全に分類種別の候補から除外されてもよい。反対に、一度分類先候補から分類として選択された法人名は、分類リストに登録されて、次回以降に優先的に分類先候補として表示部14により表示され得る。なお、対象文字列内に除外対象と優先的な分類先候補とが同時に含まれる場合には、この対象文字列が分類先候補を記載する行のテキストではないと判断されてもよい。この場合には、キーワードの有無にかかわらず、除外対象が含まれる対象文字列全体が分類先候補の検出対象から除外されてもよい。あるいは、対象文字列内で検出された分類先候補の用語のみが出力されてもよいし、上記のように優先度が低下された対象文字列が分類先文字列とされてもよい。
【0031】
特に長い法人名では、複数行に跨って宛先名が記載される場合があり得る。例えば、上記検索された語のみがある行に記載され残りの固有名称が別の行にある場合には、登録ツールは、検索された語を含む行の前後の行を統合することができる。また、例えば、分類リストに登録済の法人名の一部との合致が検出された場合には、登録ツールは、当該合致部分を含む行を前後の行と統合して再度分類リストなどと比較してもよい。上記のように改行を示す制御コードやタグが予め除去されていない場合には、削除される複数行を統合する場合にこれらが除去されてもよい。
【0032】
同一の文字列が複数回検出された場合には、当該文字列が一回のみ候補として出力されればよい。検出されたある文字列を内包する文字列が別個に検出された場合には、いずれか一方のみが候補として出力されてもよい。一方が登録リストに含まれている場合には、文字列の長短にかかわらず登録されている文字列が優先的に出力されてもよい。検出された文字列のいずれも登録リストに含まれていない場合には、長い方又は短い方のいずれが優先的に出力されるかが予め設定されていてもよい。
【0033】
図4は、電子帳簿書類の先頭付近の例を示す図である。
上記のように、スペースを含む「請 求 書」との記載から文書種別の候補として「請求書」が検出される。また、取引先種別として、「株式会社AAA御中」及び「BBB株式会社」が検出される。このうち、「御中」は、上記除外ワードとして削除され得る。株式会社AAA及びBBB株式会社のうちいずれかが自社である場合には、除外リストに従って自社名が除外されて、他方が分類の候補とされる。反対に、いずれか一方が分類リストに登録済の場合には、登録済の法人名が上位の分類先候補とされる。複数の分類先候補がある場合には、当該複数の分類先候補が並列に表示部14により表示されて、これらがいずれもユーザにより選択可能とされればよい。分類先候補が1つの場合には、ユーザは、単純に候補を承認することができる。
【0034】
データベースでは、複数のキーについてそれぞれ分類種別が定められ得る。上記のように、文書種別と取引先種別のいずれについても選択及び登録操作が可能である。選択のための表示及び入力操作は、複数のキーについて並列に行われてもよいし、順番に一つずつ行われてもよい。
【0035】
図5は、本実施形態の情報処理装置1で監視ツールにより実行される監視制御処理のCPU11による制御手順を示すフローチャートである。この監視制御処理は、例えば、情報処理装置1の起動時に自動で起動され、又はユーザの入力操作などにより任意のタイミングで起動され得る。一度起動された監視制御処理は、別途割込み処理などにより終了命令がなされるまで繰り返し継続的に実行される。
【0036】
CPU11は、監視対象のフォルダのファイルリストを取得する(S1)。上記のように、監視対象のフォルダは、「ダウンロードフォルダ」であってもよい。CPU11は、ファイルリストを前回の処理S1で取得したファイルリストと比較する(S2)。
【0037】
CPU11は、監視の結果、前回のファイルリストに対して追加されたファイルがあるか否かを判別する(S3)。なお、CPU11は、追加ファイルだけではなく、同名で更新されたファイルを併せて検出してもよい。追加ファイルがないと判別された場合には(S3;NO)、CPU11の処理は、処理S1に戻る。
【0038】
追加ファイルがあると判別された場合には(S3;YES)、CPU11は、追加ファイルはPDF形式であるか否かを判別する(S4)。追加ファイルがPDF形式ではないと判別された場合には(S4;NO)、CPU11の処理は、処理S1に戻る。追加ファイルがPDF形式であると判別された場合には(S4;YES)、CPU11は、登録ツールによる文書分類制御処理を呼び出して実行する(S5)。それから、CPU11の処理は、処理S1に戻る。
【0039】
なお、処理S1に戻る前に、所定の待機時間が設定されてもよい。あるいは、CPU11は、対象フォルダに対する操作が検出されるまで、処理S1を実行せずに待機してもよい。
【0040】
図6は、情報処理装置1で登録ツールにより実行される文書分類制御処理のCPU11による制御手順を示すフローチャートである。
【0041】
CPU11は、対象フォルダの文書データを取得する(S51)。CPU11は、文書データからテキストデータを全文抽出する。CPU11は、全文テキストデータにおける改行位置を特定し、上から順に一行分ずつ抜き出した行データを得る(S52)。CPU11は、抽出した各行のデータにおけるスペース(インデント、タブ、タグ指定なども含む)を削除して対象文字列を生成する(S53)。
【0042】
CPU11は、分類定義データ135を参照して、一行分のテキストデータに含まれるキーワードをそれぞれ検索する(S54)。上記のように、CPU11は、キーワードの検索対象とする行を先頭の予め定められた行に限定してもよい。あるいは、CPU11は、キーワードを検索する対象とする行を、各行の文字サイズに基づいて(例えば、最大の文字サイズの行を)選択してもよい。CPU11は、キーワードに対応する分類先候補を設定する(S55)。分類先候補は、例えば、単純にキーワードを含む一行のテキストから除外ワードを削除したものであってもよい。また、分類定義データ135において、キーワードと異なる分類が設定されている場合には、設定されている分類名が分類先候補とされる。
【0043】
CPU11は、設定した分類先候補を表示部14により一覧表示させる(S56)。CPU11は、一覧表示の際に、分類先候補が複数ある場合に、自社名のような除外リストに含まれる除外対象を含む分類先候補を除外リストに含まれる除外対象を含まない分類先候補よりも下に表示させるなどして、表示の優先度を下げてもよい。CPU11は、操作受付部15への入力操作を待ち受け、分類の選択操作を受け付ける。CPU11は、選択操作に応じて分類を確定する(S57)。なお、表示された候補内に適切な分類が含まれていない場合や、候補名が不正確な場合などには、ユーザは、適切な分類の名称を操作受付部15により直接入力することができる。CPU11は、入力された名称を新たな分類として設定し、分類リストに追加登録する。
【0044】
CPU11は、文書データが分類されてデータベースに登録される対象のファイル、すなわち電子帳簿データであるか否かを判別する(S58)。分類、登録対象のファイルではないと判別された場合には(S58;NO)、CPU11は、文書分類制御処理を終了して、処理を監視制御処理に戻す。
【0045】
文書データが分類、登録対象のファイルであると判別された場合には(S58;YES)、CPU11は、文書データに分類情報を付加する(S59)。CPU11は、文書データをデータベースに登録する(S60)。CPU11は、登録済の文書ファイルのデータを対象フォルダ(ダウンロードフォルダ)から削除する(S61)。CPU11は、文書分類制御処理を終了して、処理を監視制御処理に戻す。
この文書分類制御処理のうち少なくとも処理S52、S54、S55は、本実施形態の情報処理方法を構成し、本実施形態のプログラム132における処理手段をなす。
【0046】
以上のように、本実施形態の情報処理装置1は、CPU11を備える。CPU11は、電子文書から1行ごとに抜き出した行に基づいて対象文字列を生成し、生成された対象文字列と所定の文字列(キーワード)とを比較した比較の結果に基づいて電子文書の分類先候補を出力する処理を行う。CPU11は、抜き出した行に空白が含まれる場合には当該行から空白を削除して対象文字列を生成する。
このように、情報処理装置1は、同種の電子文書が複数、特に多数ある場合に、容易に分類先候補を特定してユーザに示すことができる。特に、分類に使われる文書タイトルなどは、しばしばスペースやタブなどの空白を挟む。これを除外して文字列の検索を行うことで、情報処理装置1は、容易に検出漏れを低減して分類先候補を検出、出力することができる。したがって、ユーザは、容易に電子文書を分類して管理し、以後により容易に当該電子文書を呼び出すことが可能になる。
【0047】
また、CPU11は、電子文書の先頭の行から予め定められた行数だけ、前記処理を行ってもよい。
分類種別に用いられ得る文書種別を表す文書名や、取引先種別を表す宛先又は書類の作成元などは、文書の先頭付近に記載されていることが多い。したがって、情報処理装置1は、処理を行う行数を先頭から特定の行数に絞ることで、処理が簡易化される。また、他の行から不要な検索結果を得ないので、不要な分類先候補が増えず、ユーザの選択が容易になる。
【0048】
また、CPU11は、除外対象が前記対象文字列に含まれる場合に、対象文字列の出力の優先度を下げてもよい。自社名など、分類対象ではないが分類先候補として検出されやすい文字列がある。このような文字列を除外対象として予め除外リストなどに登録しておくことで、情報処理装置1は、不要な分類先候補を選択しづらくすることができる。
【0049】
また、CPU11は、電子文書が予め定められた位置(フォルダなど)に記憶された場合に、当該電子文書に対する処理を行う。すなわち、情報処理装置1は、ダウンロードフォルダなど特定のフォルダに追加された電子文書に対して自動的に分類及びデータベースへの登録に係る処理を開始する。したがって、いちいちユーザが登録処理を起動する必要がなく、ユーザの処理の手間が軽減される。
【0050】
また、上記特定のフォルダは、電子メールに添付された文書がデフォルトで格納される設定位置であってもよい。これにより、情報処理装置1は、電子メールに添付されて送られた電子文書も容易に分類してデータベースに登録することができる。したがって、ユーザの手間がより軽減される。
【0051】
また、電子文書は、電子帳簿に係る書類であってもよい。近年、会計処理が電子処理に移行して、電子帳簿に係る処理が増大している。これに伴い、注文書、見積書、請求書などの決まった電子文書が多数電子的にやり取りされる。情報処理装置1によれば、このような電子文書の分類及び管理の手間が大いに低減される。
【0052】
CPU11は、先に電子文書からテキストの内容全文を抜き出した後、全文中の改行の指定位置に基づいて行を各々決定してもよい。文書データによって、改行位置がテキストの逐次抽出では分かりづらい場合もあるので、全文データから改行位置を特定していくことで、改行位置の誤認定などをより確実に避けることができる。
【0053】
CPU11は、1行ごとにテキストデータを抜き出して対象文字列を生成するときに、文字サイズが最大である文字が含まれる行を抜き出してもよい。上記のように文書の構造解析を行う場合には、各テキストの文字サイズを特定することができる。文書名などは、タイトルとして最も大きいフォントサイズで記載されていることが多い。したがって、情報処理装置1は、このような行を選択的に抜き出して対象文字列を生成することで、容易に適切な分類先候補を得ることができる。
【0054】
また、情報処理装置1は、表示部14と、操作受付部15と、を備える。CPU11は、分類先候補を表示部14により表示させる。CPU11は、操作受付部15が受け付けた入力操作に応じた分類先に電子文書を分類する。
したがって、ユーザは容易に分類先を適切に決定することができる。
【0055】
また、本実施形態の情報処理方法は、電子文書から1行ごとに抜き出した行に基づいて対象文字列を生成し、生成された対象文字列と所定の文字列(キーワード)とを比較した比較の結果に基づいて電子文書の分類先候補を出力する処理を行う。この処理では、抜き出した行に空白が含まれる場合には当該行から空白を削除して対象文字列を生成する。
この情報処理方法によれば、同種の電子文書が複数、特に多数ある場合に、CPU11が電子文書から余分な空白を削除して適切に検索の対象文字列を設定し、機械的かつ容易に分類先候補を特定してユーザに示すことができる。したがって、ユーザは、容易に電子文書を分類して管理し、以後により容易に当該電子文書を呼び出すことが可能になる。
【0056】
また、本実施形態のプログラム132をコンピュータにインストールして実行可能とすることで、ユーザは容易かつ、より正確に多くの同種の電子文書を仕分けして管理することができる。よって、ユーザの手間が大いに低減される。
【0057】
なお、本発明は、上記実施の形態に限られるものではなく、様々な変更が可能である。
例えば、上記実施の形態では、同一分類に含まれる複数の文字列がカンマで区切られて登録されていたが、これに限られない。例えば、スペース又はタブなどにより区切られてもよい。あるいは、検出対象の文字列が全て別個に登録されてもよい。この場合に、文字列と分類とが異なる場合には、当該文字列と分類とが対応付けられて記憶されてもよい。
【0058】
また、上記実施の形態では、電子文書の分類項目(キー)として文書種別及び取引先種別を考慮したが、分類項目は、これらに限られない。例えば、取引日時、取引金額、商品(サービス)などが分類項目とされてもよい。
【0059】
また、上記では、正規表現を用いて検出する文字列を表したが、正規表現を用いなくてもよい。検出対象の全パターンが網羅されてもよい。また、上記のように、正規表現は、取引先の偏りなどに応じて「会社」、「法人」、「事務所」及び英語表現などのうち一部が選択可能であってもよい。あるいは、初めから全ての正規表現に基づく文字列が検索されてもよい。ただし、選択対象の候補の数が多くなると、自身で直接入力する手間に比して、候補から選択する手間が大きくなり得る。したがって、あまり余計な候補が多く選択されないように正規表現が選択されるのが好ましい。
【0060】
また、上記では、電子メールの添付ファイル及びネットワークを介したダウンロードデータを例に挙げて説明したが、これらに限られない。例えば、電子文書ファイルは、USBメモリなどの可搬型記録媒体などにより取得されてもよい。また、外部から取得した書類に加えて又は代えて、自身で作成して外部へ送付する電子文書ファイルも分類の対象とされ得る。
【0061】
また、上記では、電子帳簿に係る電子文書データが分類対象とされたが、これに限られない。定型的であって、文書に含まれるテキストの内容から分類が可能なものであれば、分類の対象とされてよい。また、電子文書がPDFであるものとして説明されたが、電子文書はこれに限られない。定型的な取引文書などとして用いられるフォーマットのものであれば、分類対象は、他の形式の電子文書であってもよい。また、電子文書から各行のテキストを抽出する処理は、全文抽出後に各文に分割されるものに限られない。逐次改行が検出されて、1行ずつ行のテキストが抽出されてもよい。
【0062】
また、上記では、PCなどの情報処理装置1が単独で文書の分類及び格納を行ったが、これに限られない。情報処理装置1は、分類に係る動作を他の装置に要求して、分類結果のみを取得してもよい。あるいは、情報処理装置1は、分類情報を含む電子文書データを外部のデータベースサーバなどに送信して、当該データベースサーバにより電子文書データを記憶させてもよい。また、データベース装置は、外付けの補助記憶装置、ネットワーク上の記憶装置、あるいはクラウドサーバなどであってもよい。
【0063】
また、以上の説明では、本発明の文書分類制御に係るプログラム132を記憶するコンピュータ読み取り可能な媒体としてHDD、フラッシュメモリなどの不揮発性メモリなどからなる記憶部13を例に挙げて説明したが、これらに限定されない。その他のコンピュータ読み取り可能な媒体として、MRAMなどの他の不揮発性メモリや、CD-ROM、DVDディスクなどの可搬型記録媒体を適用することが可能である。また、本発明に係るプログラムのデータを、通信回線を介して提供する媒体として、キャリアウェーブ(搬送波)も本発明に適用される。
その他、上記実施の形態で示した具体的な構成、処理動作の内容及び手順などは、本発明の趣旨を逸脱しない範囲において適宜変更可能である。本発明の範囲は、特許請求の範囲に記載した発明の範囲とその均等の範囲を含む。
【符号の説明】
【0064】
1 情報処理装置
11 CPU
12 RAM
13 記憶部
131 メールソフト
132 プログラム
133 ダウンロードデータ
134 文書データベース
135 分類定義データ
14 表示部
15 操作受付部
16 通信部
図1
図2
図3
図4
図5
図6