(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024041603
(43)【公開日】2024-03-27
(54)【発明の名称】情報処理装置、プログラムおよびシステム
(51)【国際特許分類】
G06F 16/54 20190101AFI20240319BHJP
G06F 16/583 20190101ALI20240319BHJP
【FI】
G06F16/54
G06F16/583
【審査請求】未請求
【請求項の数】16
【出願形態】OL
(21)【出願番号】P 2022146515
(22)【出願日】2022-09-14
(71)【出願人】
【識別番号】000005496
【氏名又は名称】富士フイルムビジネスイノベーション株式会社
(74)【代理人】
【識別番号】110001210
【氏名又は名称】弁理士法人YKI国際特許事務所
(72)【発明者】
【氏名】三鍋 治郎
(72)【発明者】
【氏名】石井 努
(72)【発明者】
【氏名】伊藤 篤
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA02
5B175JA01
(57)【要約】
【課題】複数の文書を表す画像データに、当該複数の文書を文書単位で分割する位置を特定する処理を適用する場合に、その特定の精度の違いが、ユーザによって視覚的に認識されるようにする情報処理装置を提供する。
【解決手段】プロセッサは、複数の文書を表す画像データに、前記複数の文書を文書単位で分割する位置を特定する処理を適用し、前記特定の結果の確信度に応じて表示態様を変えて、前記特定の結果をディスプレイに表示させる。
【選択図】
図4
【特許請求の範囲】
【請求項1】
プロセッサを有し、
前記プロセッサは、
複数の文書を表す画像データに、前記複数の文書を文書単位で分割する位置を特定する処理を適用し、
前記特定の結果の確信度に応じて表示態様を変えて、前記特定の結果をディスプレイに表示させる、
ことを特徴とする情報処理装置。
【請求項2】
前記文書は、1または複数のページで構成され、
前記プロセッサは、
前記画像データに表されている複数のページを前記ディスプレイに表示させ、
ページとその隣のページとの間において、前記特定の結果の確信度に応じた表示態様で前記分割の位置を表現する、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記プロセッサは、
前記確信度が閾値以上となる分割の位置間にある1または複数のページを、1つの文書として束ねて前記ディスプレイに表示させる、
ことを特徴とする請求項2に記載の情報処理装置。
【請求項4】
前記プロセッサは、
前記1または複数のページを、1つの文書として束ねて前記ディスプレイに表示させる表現形式と、1つの文書を構成する前記1または複数のページを並べて前記ディスプレイに表示させる表現形式とを、ユーザの指示に従って切り替える、
ことを特徴とする請求項3に記載の情報処理装置。
【請求項5】
前記プロセッサは、
前記確信度に応じた色または形状で、前記分割の位置を表現する、
ことを特徴とする請求項2に記載の情報処理装置。
【請求項6】
前記プロセッサは、
前記分割の位置の次のページに前記確信度に応じた目印を付して、前記複数のページを前記ディスプレイに表示させる、
ことを特徴とする請求項2に記載の情報処理装置。
【請求項7】
前記プロセッサは、
前記確信度に応じて、ページとその隣のページとの間の距離を変えて、前記複数のページを前記ディスプレイに表示させる、
ことを特徴とする請求項2に記載の情報処理装置。
【請求項8】
前記プロセッサは、
ユーザの指示により、前記分割の位置の表示態様を変更する、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項9】
前記プロセッサは、
前記確信度が閾値以上となる分割の位置で、前記複数の文書を分割する、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項10】
前記プロセッサは、
前記複数の文書を構成する前記各ページから特徴を抽出し、
ページごとに、ページの特徴とその隣のページの特徴との間の差分を抽出し、
前記差分に基づいて、前記分割の位置を特定する、
ことを特徴とする請求項2に記載の情報処理装置。
【請求項11】
前記プロセッサは、
前記差分に基づいて、前記複数の文書の先頭ページを特定し、
前記先頭ページとその前のページとの間の位置を前記分割の位置として特定する、
ことを特徴とする請求項10に記載の情報処理装置。
【請求項12】
前記プロセッサは、
前記差分に基づいて、前記複数の文書の最終ページを特定し、
前記最終ページとその次のページとの間の位置を前記分割の位置として特定する、
ことを特徴とする請求項10に記載の情報処理装置。
【請求項13】
前記プロセッサは、
前記差分に基づいて、前記複数の文書の先頭ページと最終ページとを特定し、
当該特定の結果に基づいて、前記分割の位置を特定する、
ことを特徴とする請求項10に記載の情報処理装置。
【請求項14】
前記プロセッサは、
前記分割の位置が前記先頭ページの前の位置または前記最終ページの次の位置のいずれか一方である場合と、前記分割の位置が前記先頭ページの前の位置かつ前記最終ページの次の位置である場合とで、前記分割の位置の表示態様を区別して前記ディスプレイに表示させる、
ことを特徴とする請求項13に記載の情報処理装置。
【請求項15】
コンピュータに、
複数の文書を表す画像データに、前記複数の文書を文書単位で分割する位置を特定する処理を適用させ、
前記特定の結果の確信度に応じて表示態様を変えて、前記特定の結果をディスプレイに表示させる、
ことを特徴とするプログラム。
【請求項16】
画像取得装置と、情報処理装置と、端末装置と、を含み、
前記画像取得装置は、第1のプロセッサを備え、
前記第1のプロセッサは、
複数の文書を表す画像データを取得して、当該画像データを前記情報処理装置に送信し、
前記情報処理装置は、第2のプロセッサを備え、
前記第2のプロセッサは、
前記複数の文書を表す画像データを受け付け、
当該画像データに、前記複数の文書を文書単位で分割する位置を特定する処理を適用し、
当該特定の結果の確信度に応じた表示態様を示す情報を前記端末装置に送信し、
前記端末装置は、第3のプロセッサを備え、
前記第3のプロセッサは、
前記情報を受け付け、前記確信度に応じた前記表示態様で、前記特定の結果をディスプレイに表示させる、
ことを特徴とする、システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、プログラムおよびシステムに関する。
【背景技術】
【0002】
画像データに複数の文書が表されている場合、画像データに表されている複数の文書を文書単位で分割することがある。
【0003】
特許文献1には、複数の文書をスキャンした際にファイル分割を行い、ファイルの文書と事前に登録済みの文書とのマッチングを行い、それぞれの文書に対してファイル名等のインデックス項目をレコメンドする画像処理装置が記載されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
ところで、複数の文書を表す画像データに画像処理等の処理を適用することで、複数の文書を文書単位で分割することが考えられる。この場合、その分割する位置を特定する精度によっては、ユーザがその分割の結果を修正する必要性が生じることがある。
【0006】
本発明の目的は、複数の文書を表す画像データに、当該複数の文書を文書単位で分割する位置を特定する処理を適用する場合に、その特定の精度の違いが、ユーザによって視覚的に認識されるようにすることにある。
【課題を解決するための手段】
【0007】
請求項1に係る発明は、プロセッサを有し、前記プロセッサは、複数の文書を表す画像データに、前記複数の文書を文書単位で分割する位置を特定する処理を適用し、前記特定の結果の確信度に応じて表示態様を変えて、前記特定の結果をディスプレイに表示させる、ことを特徴とする情報処理装置である。
【0008】
請求項2に係る発明は、前記文書は、1または複数のページで構成され、前記プロセッサは、前記画像データに表されている複数のページを前記ディスプレイに表示させ、ページとその隣のページとの間において、前記特定の結果の確信度に応じた表示態様で前記分割の位置を表現する、ことを特徴とする請求項1に記載の情報処理装置である。
【0009】
請求項3に係る発明は、前記プロセッサは、前記確信度が閾値以上となる分割の位置間にある1または複数のページを、1つの文書として束ねて前記ディスプレイに表示させる、ことを特徴とする請求項2に記載の情報処理装置である。
【0010】
請求項4に係る発明は、前記プロセッサは、前記1または複数のページを、1つの文書として束ねて前記ディスプレイに表示させる表現形式と、1つの文書を構成する前記1または複数のページを並べて前記ディスプレイに表示させる表現形式とを、ユーザの指示に従って切り替える、ことを特徴とする請求項3に記載の情報処理装置である。
【0011】
請求項5に係る発明は、前記プロセッサは、前記確信度に応じた色または形状で、前記分割の位置を表現する、ことを特徴とする請求項2に記載の情報処理装置である。
【0012】
請求項6に係る発明は、前記プロセッサは、前記分割の位置の次のページに前記確信度に応じた目印を付して、前記複数のページを前記ディスプレイに表示させる、ことを特徴とする請求項2に記載の情報処理装置である。
【0013】
請求項7に係る発明は、前記プロセッサは、前記確信度に応じて、ページとその隣のページとの間の距離を変えて、前記複数のページを前記ディスプレイに表示させる、ことを特徴とする請求項2に記載の情報処理装置である。
【0014】
請求項8に係る発明は、前記プロセッサは、ユーザの指示により、前記分割の位置の表示態様を変更する、ことを特徴とする請求項1に記載の情報処理装置である。
【0015】
請求項9に係る発明は、前記プロセッサは、前記確信度が閾値以上となる分割の位置で、前記複数の文書を分割する、ことを特徴とする請求項1に記載の情報処理装置である。
【0016】
請求項10に係る発明は、前記プロセッサは、前記複数の文書を構成する前記各ページから特徴を抽出し、ページごとに、ページの特徴とその隣のページの特徴との間の差分を抽出し、前記差分に基づいて、前記分割の位置を特定する、ことを特徴とする請求項2に記載の情報処理装置である。
【0017】
請求項11に係る発明は、前記プロセッサは、前記差分に基づいて、前記複数の文書の先頭ページを特定し、前記先頭ページとその前のページとの間の位置を前記分割の位置として特定する、ことを特徴とする請求項10に記載の情報処理装置である。
【0018】
請求項12に係る発明は、前記プロセッサは、前記差分に基づいて、前記複数の文書の最終ページを特定し、前記最終ページとその次のページとの間の位置を前記分割の位置として特定する、ことを特徴とする請求項10に記載の情報処理装置である。
【0019】
請求項13に係る発明は、前記プロセッサは、前記差分に基づいて、前記複数の文書の先頭ページと最終ページとを特定し、当該特定の結果に基づいて、前記分割の位置を特定する、ことを特徴とする請求項10に記載の情報処理装置である。
【0020】
請求項14に係る発明は、前記プロセッサは、前記分割の位置が前記先頭ページの前の位置または前記最終ページの次の位置のいずれか一方である場合と、前記分割の位置が前記先頭ページの前の位置かつ前記最終ページの次の位置である場合とで、前記分割の位置の表示態様を区別して前記ディスプレイに表示させる、ことを特徴とする請求項13に記載の情報処理装置である。
【0021】
請求項15に係る発明は、コンピュータに、複数の文書を表す画像データに、前記複数の文書を文書単位で分割する位置を特定する処理を適用させ、前記特定の結果の確信度に応じて表示態様を変えて、前記特定の結果をディスプレイに表示させる、ことを特徴とするプログラムである。
【0022】
請求項16に係る発明は、画像取得装置と、情報処理装置と、端末装置と、を含み、前記画像取得装置は、第1のプロセッサを備え、前記第1のプロセッサは、複数の文書を表す画像データを取得して、当該画像データを前記情報処理装置に送信し、前記情報処理装置は、第2のプロセッサを備え、前記第2のプロセッサは、前記複数の文書を表す画像データを受け付け、当該画像データに、前記複数の文書を文書単位で分割する位置を特定する処理を適用し、当該特定の結果の確信度に応じた表示態様を示す情報を前記端末装置に送信し、前記端末装置は、第3のプロセッサを備え、前記第3のプロセッサは、前記情報を受け付け、前記確信度に応じた前記表示態様で、前記特定の結果をディスプレイに表示させる、ことを特徴とするシステムである。
【発明の効果】
【0023】
請求項1-3,5-7,14,15,16に係る発明によれば、分割位置の確信度に応じて表示態様を変えることで、ユーザは当該分割位置を特定する処理の精度を視覚的に認識できる。
【0024】
請求項4に係る発明によれば、ユーザの指示により、ディスプレイに表示させる表現形式を変更できる。
【0025】
請求項8に係る発明によれば、ユーザの指示により、分割位置の表示態様を変更できる。
【0026】
請求項9に係る発明によれば、分割位置の確信度が閾値以上の場合に、複数の文書を文書単位で分割できる。
【0027】
請求項10-13に係る発明によれば、ページ間の特徴の差分に基づいて、分割位置を特定できる。
【図面の簡単な説明】
【0028】
【
図4】情報処理装置のハードウェアの構成を示すブロック図である。
【
図5】特徴量を抽出した結果の一例を示すテーブルである。
【
図6】分割位置を特定する処理の一例として用いた分類器の一例を示す図である。
【
図9】分割位置の確信度と表示態様を対応付けたテーブルである。
【
図10】取得した画像データをディスプレイに表示させたときの表現形式の一例を示す図である。
【
図11】実施形態に係る情報処理システムのディスプレイに表示される表示態様の一例を示す図である。
【
図18】
図3に示す画像データに、実施形態に係る情報処理システムで行われる処理を適用した結果ディスプレイに表示される画面の一例である。
【発明を実施するための形態】
【0029】
図1は、情報処理システムのブロック図である。実施形態において、情報処理システムは、情報処理装置10と、画像取得装置12と、端末装置14とを含む。情報処理装置10と、画像取得装置12と、端末装置14とは、それぞれ、他の装置と通信する機能を有する。例えば、情報処理装置10と、画像取得装置12と、端末装置14とは、インターネットやLAN(Local Area Network)等の通信経路を介して、互いに通信する。
【0030】
実施形態に係る情報処理システムにおいては、複数の文書を表す画像データに、当該複数の文書を文書単位で分割する位置(以下、適宜「分割位置」と称する)を特定する処理が適用される。また、その特定の確信度に応じた表示態様で、当該特定の結果が表示される。例えば、当該特定の結果の一例である分割位置が、その特定の結果の確信度に応じた表示態様で表示される。
【0031】
情報処理装置10は、複数の文書を表す画像データを受け付け、当該画像データにおいて当該複数の文書を文書単位で分割する位置を特定し、当該特定の結果(例えば、分割位置)を、その特定の結果の確信度に応じて表示態様を変えてディスプレイに表示させる装置である。情報処理装置10は、例えば、パーソナルコンピュータ(以下、「PC」と称する)、画像処理装置、または、サーバ等の装置である。画像処理装置は、スキャン機能、プリント機能、および、コピー機能の中の少なくとも1つの機能を有する装置である。画像処理装置は、スキャン機能、プリント機能、および、コピー機能等を有する複合機であってもよい。
【0032】
文書単位で分割位置を特定する処理は、情報処理装置10によって行われてもよいし、情報処理装置10以外の別の装置によって行われてもよい。文書単位で分割位置を特定する処理が別の装置によって行われる場合、その特定の結果を示す情報が、別の装置から情報処理装置10に送信される。情報処理装置10は、その特定の結果を示す情報を受け付けて、その特定の結果の確信度に応じて表示態様を変えて分割位置をディスプレイに表示させる。
【0033】
以下では、文書単位で分割位置を特定する処理が情報処理装置10によって行われるものとして実施形態を説明するが、もちろん、当該処理は別の装置によって行われてもよい。
【0034】
画像取得装置12は、画像データを取得する装置である。画像取得装置12は、イメージスキャナであってもよいし、カメラ等の撮影装置であってもよい。例えば、画像取得装置12がイメージスキャナである場合、画像取得装置12が有するスキャン機能によって物理的な文書がスキャンされることで、当該文書を表す画像データが生成される。画像取得装置12が撮影装置である場合、画像取得装置12が有する撮影機能によって物理的な文書が撮影されることで、当該文書を表す画像データが生成される。当該画像データは、例えば通信経路を介して情報処理装置10に送信される。当該画像データは、例えば通信経路を介して端末装置14に送信されてもよい。
【0035】
画像取得装置12は、情報処理装置10に含まれてもよい。この場合、情報処理装置10は、スキャン機能または撮影機能を実行することで画像データを生成する。画像取得装置12は、例えば、PC、タブレットPC、または、スマートフォン等である。例えば、画像取得装置12は、通信装置、ユーザインターフェース、メモリ、および、プロセッサを有する。画像取得装置12のプロセッサが、第1のプロセッサの一例に相当する。
【0036】
端末装置14は、画像データを受け付け、当該画像データに基づく画像を表示する装置である。画像データは、画像取得装置12から端末装置14に送信されてもよいし、情報処理装置10から端末装置14に送信されてもよい。端末装置14は、例えば、PC、タブレットPC、または、スマートフォン等である。例えば、端末装置14は、通信装置、ユーザインターフェース、メモリ、および、プロセッサを有する。ユーザインターフェースはディスプレイを含み、画像は、当該ディスプレイに表示される。端末装置14のプロセッサが、第3のプロセッサの一例に相当する。
【0037】
複数の文書を表す画像データに基づく画像は、端末装置14のディスプレイに表示されてもよいし、情報処理装置10のディスプレイに表示されてもよい。また、後述するように、端末装置14は、ユーザが分割位置を修正する等、ディスプレイの画面上で何らかの操作を行うときに用いる装置であってもよい。
【0038】
「文書」は、文字、記号、図形、または、画像等が表された1または複数のページで構成される。例えば、身の回りの紙文書やビジネス文書等が、「文書」の一例に相当する。様々な形式や物理的な大きさを有する文書が存在するが、実施形態では、文書の種類や形式等は特に限定されない。
【0039】
図2は、複数の文書の一例を示している。文書16はビジネス文書(例えば、報告書、帳票、伝票、請求書等)である。文書18は身の回りの紙文書である。文書20はストックされた大量の文書である。例えば、文書16は、3枚のページ(例えば、ページ16a,16b,16c)で構成されている。
【0040】
例えば、画像取得装置12によって複数の文書が一括してスキャンされることで、当該複数の文書を表す画像データが生成される。もちろん、一括スキャンに限らず、元々複数の文書が表された画像データが、実施形態に係る画像データとして用いられてもよい。
【0041】
図3は、画像データの一例を示している。
図3に示されている画像データ22には、複数のページ(例えば、ページ24,26,・・・,36)が並んで表されている。当該複数のページによって複数の文書が構成される。
【0042】
ここでは一例として、複数の文書が画像取得装置12によって一括してスキャンされることで、画像データ22が生成されたものとする。具体的には、複数の文書のそれぞれを構成する1または複数のページが、画像取得装置12によって順番にスキャンされることで、複数のページが並んで表される画像データ22が生成される。例えば、文書を構成するページの順番で、各ページがスキャンされる。画像データ22に表されている各ページの並び順は、スキャンの順番に対応する。より詳しく説明すると、ある文書(仮に「文書1」と称する)を構成する1または複数のページが、画像取得装置12によって順番にスキャンされ、続けて、別の文書(仮に「文書2」と称する)を構成する1または複数のページが、画像取得装置12によって順番にスキャンされる。これにより、文書1を構成する1または複数のページと、文書2を構成する1または複数のページとが、並んで表される画像データ22が生成される。その並び順は、各ページのスキャンの順番に対応する。
【0043】
図3に示す例では、ページ24およびページ26が1つの文書(仮に「文書1」と称する)を構成し、ページ28が別の1つの文書(仮に「文書2」と称する)を構成し、ページ30およびページ32が別の1つの文書(仮に「文書3」と称する)を構成し、ページ34およびページ36が別の1つの文書(仮に「文書4」と称する)を構成するものとする。
【0044】
ここでは一例として、文書1,2,3,4の順番で、各文書を構成する各ページが、画像取得装置12によって一括してスキャンされている。その結果、画像データ22においては、ページ24,26,28,30,32,34,36の順番で、各ページが並んで表されている。つまり、ページ24,26,28,30,32,34,36の順番で各ページがスキャンされることで、画像データ22が生成される。
【0045】
文書を説明するための便宜上、各文書の間に仮想線が示されている。仮想線38は、文書1と文書2との間に示されている。仮想線40は、文書2と文書3との間に示されている。仮想線42は、文書3と文書4との間に示されている。各仮想線が配置されている位置は、文書の分割位置に相当する。
【0046】
分割位置は、画像データに表されている文書と、当該画像データにおいて当該文書の隣に表されている文書と、を分割する位置である。より詳しく説明すると、文書は、先頭ページと最終ページとを含む。文書が複数のページを含む場合、先頭ページと最終ページは別々のページである。文書が1つのページのみを含む場合、当該ページは、先頭ページであり、かつ、最終ページである。例えば、画像データに表されている文書の先頭ページと、当該先頭ページの1つ前のページ(すなわち、当該先頭ページの1つ前にスキャンされたページ(換言すると、画像データに表されている別の文書の最終ページに相当するページ))と、の間の位置が、分割位置に相当する。また、ある文書の最終ページと、当該最終ページの次のページ(すなわち、当該最終ページの1つ後にスキャンされたページ(換言すると、別の文書の先頭ページに相当するページ))と、の間の位置が、分割位置に相当する。
【0047】
図3を参照して説明すると、ページ26は文書1の最終ページであり、ページ28は文書2の先頭ページである。この場合、先頭ページであるページ28に着目すると、ページ28の1つ前のページ26(すなわち、ページ28の1つ前にスキャンされたページ)と、ページ28と、の間の位置が、文書1と文書2とを分割する位置に相当する。最終ページであるページ26に着目すると、ページ26の次のページ28(すなわち、ページ26の次にスキャンされたページ)と、ページ26と、の間の位置が、文書1と文書2とを分割する位置に相当する。他の文書についても同様である。
【0048】
文書の分割位置は、例えば、人工知能(AI)によって特定される。また、その特定の結果の確信度が算出される。例えば、文書の分割位置は、機械学習やルールベースによる処理によって特定され、また、特定の結果の確信度が算出される。用いられる機械学習は特に限定されず、ディープラーニング等のニューラルネットワークや強化学習等が用いられる。例えば、CNN(Convolutional Neural Network:畳み込みニューラルネットワーク)、RNN(Recurrent Neural Network:再起型ニューラルネットワーク)、GAN(Generative Adversarial Networks:敵対的生成ネットワーク)、ランダムフォレスト、または、その他のアルゴリズムが用いられる。分割位置を特定する処理については後で詳しく説明する。
【0049】
ここで、「確信度」とは、一般に、予測または出力がどの程度確実であるかを示す統計的な尺度であるが、実施形態においては、「分割位置の確信度」を指す。
【0050】
図4は、実施形態に係る情報処理装置10のハードウェアの構成を示すブロック図である。情報処理装置10は、UI44と、通信装置46と、メモリ48と、プロセッサ50とを含む。
【0051】
UI44は、ユーザインターフェースであり、ディスプレイと入力装置とを含む。ディスプレイは、液晶ディスプレイまたはELディスプレイ等である。入力装置は、キーボード、マウス、入力キーまたは操作パネル等である。UI44は、ディスプレイと入力装置とを兼ね備えたタッチパネル等のUIであってもよい。
【0052】
通信装置46は、通信チップや通信回路等を有する1または複数の通信インターフェースを含み、他の装置に情報を送信する機能、および、他の装置から情報を受信する機能を有する。通信装置46は、近距離無線通信やWi-Fi(登録商標)等の無線通信機能を有してもよいし、有線通信機能を有してもよい。
【0053】
メモリ48は、データを記憶する1または複数の記憶領域を構成する装置である。メモリ48は、例えば、ハードディスクドライブ(HDD)、ソリッドステートドライブ(SSD)、各種のメモリ(例えば、RAM、DRAM、NVRAM、ROM、等)、その他の記憶装置(例えば、光ディスク等)、または、それらの組み合わせである。
【0054】
プロセッサ50は、情報処理装置10の各部の動作を制御する。情報処理装置10のプロセッサ50が、第2のプロセッサの一例に相当する。
【0055】
プロセッサ50は、通信装置46を介して、複数の文書を表す画像データを画像取得装置12から受け付ける。そして、プロセッサ50は、文書の分割位置を特定する処理を、当該画像データに適用する。なお、上述のように、分割位置を特定する処理は、情報処理装置10以外の別の装置で行ってもよいが、実施形態においては、プロセッサ50が当該処理を行うものとする。
【0056】
以下、分割位置を特定する処理について説明する。プロセッサ50は、受け付けた画像データに含まれる複数の文書を構成する各ページから特徴を抽出する。ここで、「特徴」とは、画像データから得られる情報であり、例えば、あるページの構造、あるページに表示されている文字列や図や表、ページのサイズ、ページの色、文字の向き、文字のサイズ、文字の色等が挙げられる。そして、プロセッサ50は、ページごとに、ページの特徴とその隣のページの特徴との間の差分を抽出し、その差分に基づいて、分割位置を特定する。なお、「差分」とは、あるページと、その隣のページにおいて、ある特定の特徴同士を比較したときに表れる違いである。本実施形態では、ページの特徴および差分は、文書を構成する先頭ページや最終ページを特定するために用いられる。
【0057】
例えば、機械学習において、差分と文書の分割位置との関係が学習され、プロセッサ50は、その機械学習を用いることで、抽出された差分に基づいて分割位置を特定し、分割位置の確信度を算出する。別の例として、差分と分割位置との関係を表すルールが定められ、プロセッサ50は、そのルールに従って、抽出された差分に基づいて分割位置を特定してもよい。
【0058】
例えば、プロセッサ50は、差分に基づいて各文書の先頭ページを特定し、その先頭ページとその前のページとの間の位置を分割位置として特定する。すなわち、画像データには、複数のページが並んで表されているため、先頭ページと、その1つ前に表されているページと、の間の位置が、文書の分割位置であると推測される。そのため、プロセッサ50は、先頭ページとその前のページとの間の位置を分割位置として特定する。例えば、機械学習において、差分と先頭ページとの関係が学習され、プロセッサ50は、その機械学習を用いることで、抽出された差分に基づいて先頭ページを特定し、分割位置を特定する。もちろん、ルールベースに従った処理によって先頭ページが特定されてもよい。
【0059】
別の例として、プロセッサ50は、差分に基づいて各文書の最終ページを特定し、その最終ページとその次のページとの間の位置を分割位置として特定してもよい。最終ページと、その1つ後に表されているページと、の間の位置が、文書の分割位置であると推測される。例えば、機械学習において、差分と最終ページとの関係が学習され、プロセッサ50は、その機械学習を用いることで、抽出された差分に基づいて最終ページを特定し、分割位置を特定する。もちろん、ルールベースに従った処理によって最終ページが特定されてもよい。
【0060】
プロセッサ50は、先頭ページと最終ページとを特定し、その特定の結果に基づいて、分割位置を特定してもよい。すなわち、プロセッサ50は、先頭ページのみを特定することで分割位置を特定してもよいし、最終ページのみを特定することで分割位置を特定してもよいし、先頭ページと最終ページの両方を特定することで分割位置を特定してもよい。
【0061】
また、プロセッサ50は、分割位置の確信度に応じて分割位置の表示態様を変えて、分割位置をディスプレイに表示させる。例えば、プロセッサ50は、画像データに表されている複数のページをディスプレイに表示させ、そのディスプレイ上にて分割位置を表示する。例えば、各文書を構成する各ページがページ順にスキャンされることで画像データが生成され、プロセッサ50は、そのスキャンの順番に従って各ページを並べてディスプレイに表示させ、そのディスプレイ上にて分割位置を表示する。このとき、プロセッサ50は、分割位置の確信度に応じて分割位置の表示態様を変える。なお、プロセッサ50は、複数のページを、情報処理装置10のディスプレイに表示させてもよいし、端末装置14のディスプレイに表示させてもよい。例えば、端末装置14のディスプレイに複数のページを表示させる場合、プロセッサ50は、分割位置の確信度に応じた表示態様を示す情報を端末装置14に送信する。そして、端末装置14は、当該情報を受け付け、分割位置の確信度に応じた表示態様で、複数のページをディスプレイに表示する。
【0062】
例えば、分割位置の確信度と表示態様を示す情報との対応付けを示す表示態様管理情報が、メモリ48に予め記憶されている。プロセッサ50は、メモリ48に記憶されている表示態様管理情報を参照することで、分割位置の確信度に対応付けられている表示態様を特定し、その特定した表示態様に従って分割位置をディスプレイに表示させる。
【0063】
ここで、「表示態様」とは、分割位置を表示させるときの表示の仕方である。表示態様の一例としては、色、形状、大きさ、位置等が挙げられる。
【0064】
プロセッサ50は、画像データに表されている複数のページをディスプレイに表示させ、あるページとその隣のページとの間において、分割位置の確信度に応じた表示態様で分割位置を表現する。
【0065】
例えば、プロセッサ50は、分割位置を表す画像(例えば、アイコンやマーク等)を当該分割位置に表示し、当該分割位置の確信度に応じて当該画像の表示態様を変える。具体的には、プロセッサ50は、分割位置の確信度に応じて、画像の色や形状や大きさを変える。
【0066】
別の例として、プロセッサ50は、分割位置の確信度に応じて、その分割位置を境にして互いに隣接して表示される2つのページ間の距離や、当該2つのページの配置関係を変えてもよい。例えば、プロセッサ50は、確信度が高いほど、ページ間の距離を長くして(すなわち、当該2つのページを離して)、各ページをディスプレイに表示させる。もちろん、ユーザによる設定によっては、プロセッサ50は、確信度が高いほど、ページ間の距離を短くして、各ページをディスプレイに表示させてもよい。
【0067】
さらに別の例として、プロセッサ50は、分割位置の確信度が閾値以上となる2つの分割位置に挟まれている1または複数のページを、1つの文書として束ねてディスプレイに表示させてもよい。
【0068】
以下、
図5を参照して、ページの特徴について説明する。
図5には、ページの特徴とページの特徴量の差分とが示されている。ページの特徴量は、当該ページの特徴の指標の一例である。
【0069】
ここでは一例として、ページの構造に関する特徴と、ページに記載されている文字列等が有する意味に関する特徴とが、ページの特徴として定められている。ページの構造に関する特徴として、例えば、ページの外観に関する特徴と、ページに記載されているテキストの外観に関する特徴とが、定められている。ページの外観に関する特徴として、例えば、ページを構成する物理的な紙の大きさと、ページに記載されている図形の特徴と、が定められている。そして、紙の高さと幅、図形を構成する線の数、図形の大きさ、および、図形の色等が、ページの外観に関する特徴として抽出されている。また、ページに記載されているテキストの外観に関する特徴として、例えば、テキストを構成するパラグラフと、テキストに用いられる文字の文字サイズと文字種とが、定められている。そして、パラグラフの個数や最大サイズ、文字種として用いられる英字_小文字の数と比率、数字やローマ数字やひらがなの数が、ページに記載されているテキストの外観に関する特徴として抽出されている。また、ページに記載されている文字列等が有する意味に関する特徴として、テキストと、表と、図と、が定められている。テキストに関する特徴として、例えば、テキストを構成する単語と文章とが定められている。そして、例えば、あるテキストで用いられる単語に関連するキーワードが、ページに記載されている文字列等が有する意味に関する特徴として抽出されている。
【0070】
図5に示されている「前ページとの差分」は、あるページ(仮に「ページB」と称する)から抽出された特徴量と、ページBの1つ前のページ(仮に「ページA」と称する)から抽出された特徴量と、の差分である。ページAは、ページBよりも1つ前にスキャンされたページである。
図5に示されている「後ページとの差分」は、ページBから抽出された特徴量と、ページBの1つ後のページ(仮に「ページC」と称する)から抽出された特徴量と、の差分である。ページCは、ページBよりも1つ後にスキャンされたページである。
【0071】
例えば、機械学習において、特徴量の差分が学習され、特徴量の差分を用いて分割位置が特定される。なお、ここで「特徴量」とは、機械学習において、汎用的なパターン(すなわち、特徴)を大量のデータから見つけ出すときに予測の手掛かりとなる変数を指す。実施形態では、「特徴量」とは、先頭ページと最終ページを見つけ出すときに予測の手掛かりとなる変数を指す。例えば、
図5では、右から3列目の「高さ」、「幅」、・・・、「言語モデル」が特徴であり、この特徴を定量的に表した数値が特徴量である。
【0072】
図5では具体的な数値は省略しているが、例えば、あるページを構成する物理的な紙の大きさ(例えば、高さ×幅)とその前のページを構成する物理的な紙の大きさ(例えば、高さ×幅)との差分が100であり、あるページを構成する物理的な紙の大きさ(例えば、高さ×幅)とその後のページを構成する物理的な紙の大きさ(例えば、高さ×幅)との差分が150であるとする。差分が大きい場合に、別の文書を構成する可能性が高い、と定められている場合、差分が100よりも、差分が150の方が分割位置である可能性が高い。すなわち、当該あるページについては、その前のページとの間に分割位置が挿入されるよりも、その後のページとの間に分割位置が挿入される可能性が高いといえる。
【0073】
以下、
図6-8を参照して、機械学習に用いられるアルゴリズムの一例について説明する。
図6-8には、分類器の一例が示されている。
【0074】
図6-8は、機械学習を用いた分割位置を特定する処理の別の例であり、具体的には、分類器の例を示した図である。
図6には、機械学習アルゴリズムの1つである決定木52A,52B,52C,・・・,52Mが示されている。決定木とは、木構造を用いて、条件分岐によってグループを分割して分類する手法である。具体的には、ある条件に従って分岐が辿られると(すなわち、Yes/Noで判断されると)、その末端に最終的な結果や結論が用意されている。例えば、
図6においては、根ノードであるノード52-1にある条件を設定し、Yesの場合、ノード52-2に進む。そして、最終的に葉ノード52-Mまで進むと、結果や結論が得られる。実施形態においては、条件に従って分岐が辿られ、ある特定の条件まで満たす場合に(例えば、全てYesだった場合に)、そのページは先頭ページだと特定される。そして、先頭ページだと特定されたページとその前のページとの間の位置が分割位置と特定される。また、実施形態における別の分割位置の特定としては、条件に従って分岐が辿られ、最終的に辿り着いた末端の葉ノードに、確信度が具体的な数値で示されてもよい。
【0075】
図7,8には、決定木を応用したモデルが示されている。
図7に示されているモデルは、XGBoostと呼ばれるモデルである。XGBoostは、複数の決定木を組み合わせて学習することで高い精度を実現する。
図8に示されているモデルは、LightGBMと呼ばれるモデルである。
図7に示されている決定木54A,54Bでは、全ての葉ノードで根ノードからの深さが同じである一方、
図8に示されている決定木56A,56B,56Cでは、必要なノードのみ次のノードを生成していく。すなわち、LightGBMは、XGBoostよりも計算量が少ない分、XGBoostよりも処理スピードが高速である。この
図6-8の分類器は、詳細は省略するが、最終的に得られる結果や結論の抽出の仕方が異なるため、処理スピードや精度によって、適宜、分類器を選択すればよい。
【0076】
図9には、分割位置の確信度と表示態様の対応付けを示すテーブルが示されている。このテーブルは、表示態様管理情報の一例に相当し、このテーブルのデータが、メモリ48に記憶されている。
【0077】
ここでは一例として、表示態様として色が用いられる。すなわち、
図9には、確信度と色が対応付けられたテーブルが示されている。また、確信度の程度として、「高」、「中」、および、「低」が定められている。例えば、分割位置である確率が80-100%であるときの確信度は、高い確信度(
図9中の「高」)である。分割位置である確率が40-79%であるときの確信度は、中程度の確信度(
図9中の「中」)である。分割位置である確率が0-39%であるときの確信度は、低い確信度(
図9中の「低」)である。もちろん、この分類は一例に過ぎず、より細かく確信度の程度が定められてもよいし、より粗く確信度の程度(例えば、2段階の程度)が定められてもよい。
【0078】
図9に示す例では、高い確信度に「青」が対応付けられている。また、中程度の確信度に「薄い青」が、低い確信度に「白」が、それぞれ対応付けられている。
【0079】
プロセッサ50は、このテーブルを参照し、分割位置の確信度に応じた色でディスプレイに分割位置を表示する。すなわち、プロセッサ50は、このテーブルを参照し、分割位置の確信度に応じた色で分割位置を表現して分割位置をディスプレイに表示させる。
【0080】
例えば、分割位置の確信度が「高」の場合、プロセッサ50は、青色で当該分割位置をディスプレイに表示する。具体的には、プロセッサ50は、分割位置を表す画像(例えば、アイコンやマーク等)を、ページ間の分割位置に表示する。分割位置の確信度が「高」の場合、プロセッサ50は、当該画像を青色で表示する。
【0081】
分割位置をディスプレイに表示させる場合に、色以外の表示態様が用いられてもよい。例えば、表示態様として形状が用いられる場合、分割位置の確信度と形状との対応付けを示すテーブルが予め作成され、そのテーブルのデータが、メモリ48に記憶される。具体例を挙げて説明すると、高い確信度に円形が対応付けられ、中程度の確信度に三角形が対応付けられ、低い確信度に四角形が対応付けられる。例えば、分割位置の確信度が「高」である場合、プロセッサ50は、ディスプレイ上にて円形の図形を分割位置に表示する。表示態様として大きさ等が用いられる場合も同様である。
【0082】
なお、複数種類の表示態様が用いられてもよい。例えば、色と形状との組み合わせによって、分割位置の確信度が表現されてもよい。
【0083】
以下、
図10を参照して、画像データに表されている各ページの表示例について説明する。
図10には、画面58が示されている。例えば、
図10は、取得した画像データをディスプレイに表示させたときの表現形式の一例を示す図である。画面58は、端末装置14のディスプレイ上の画面であってもよいし、情報処理装置10のUI44のディスプレイ上の画面であってもよい。例えば、画像取得装置12がスキャナであった場合、スキャナで読み取った1または複数の文書を表す画像データが、画面58に表示される。
【0084】
画面58は、領域60,62を含む。領域60には、スキャナで読み取った1または複数のページを表す画像が表示される。ここでは一例として、ページ1-8の8枚のページがスキャンされており、ページ1-8の8枚のページが並べて表示される。また、領域62には、領域60に並べて表示された1-8の8枚のページと同じページが束ねて表示される。なお、以下、ディスプレイにページを並べて表示する表現形式を、適宜「一覧表示」と称する。また、ディスプレイにページを束ねて表示する表現形式を、適宜「束ね表示」と称する。ここで、束ね表示を構成するページは、1または複数の文書を構成するページである。すなわち、必ずしも1つの文書を構成するページが束ね表示されるとは限らず、また、本来別々の文書を構成する各ページが束ね表示されてディスプレイに表されることもある。
【0085】
以下、
図11-17を参照して、実施形態に係る情報処理システムのディスプレイに表示される分割位置の表示態様の例を説明する。
図11-17には、複数のページが表示された画面が示されている。当該画面は、プロセッサ50がディスプレイに表示させた画面である。
【0086】
図11には、
図10に示す画面58中の領域60に表示されている複数のページと同様に、複数のページが表示されている。具体的には、
図11は、ページA,B,・・・,Lの12枚のページをディスプレイに並べて表示した図である。ページA,B,・・・,Lは、1または複数の文書を構成する構成要素であり、画像取得装置12によって、AからLのアルファベット順で順番にスキャンされたページである。ディスプレイに表されている各ページの並び順は、スキャンの順番に対応する。なお、以降、
図12-17に示す図においても同様に、ディスプレイに表されている各ページの並び順は、画像取得装置12によってスキャンされたページの順番に対応するものとする。すなわち、
図11-17に示す図においては、ページAの次にページB、ページBの次にページCというように、スキャンされたページが左上から順番に並べて表示されている。
【0087】
図11には、プロセッサ50による「分割する位置を特定する処理」が適用された後の状態が示される。そして、プロセッサ50は、分割位置の確信度に応じてディスプレイに分割位置を色分けして表示する。以下、文書1,2,3,…の順番で、各文書を構成する各ページが画像取得装置12によって一括してスキャンされている場合を想定して説明する。まず、プロセッサ50は、スキャンされた複数の文書を文書単位で分割する位置を特定する処理を適用する。当該処理により、ページAはある文書(仮に「文書1」と称する)の最終ページであり、ページBは文書1の次の文書(仮に「文書2」と称する)の先頭ページである、と特定される。このときに算出された確信度は、80-100%の範囲に含まれる値である。したがって、プロセッサ50は、青色の分割線64を、ページAとページBとの間に表示する。なお、
図11に示す分割線64-78は、分割位置を表すために、各ページ間に分割位置を表す分割線として配置された長方形の図形である。また、分割線72,74,76は分割位置である確信度が高いため、プロセッサ50は、分割線64と同様に、分割線72,74,76を、青色で表示する。
【0088】
次に、プロセッサ50により、分割線66の前のページBと、分割線66の後のページCとは、別々の文書である確率が低い、と特定される。すなわち、ページBとページCは1つの文書(すなわち、ここでは文書2)を構成すると特定される。このときに算出された確信度は、0-39%の範囲に含まれる値である。したがって、プロセッサ50は、白色の分割線66を、ページBとページCとの間に表示する。分割線70についても同様である。
【0089】
また、プロセッサ50により、分割線68の前のページCと、分割線68の後のページDとは、別々の文書である確率が中程度である、と特定される。すなわち、ページCは文書2の最終ページであり、ページDは文書2の次の文書(仮に「文書3」と称する)の先頭ページである、との確率が中程度であると特定される。これは言い換えれば、ページCは文書2の最終ページではなく、ページCとページDは1つの文書(すなわち、ここでは文書2)を構成する、との確率も中程度と特定されているともいえる。このときに算出された確信度は、40-79%の範囲に含まれる値である。したがって、プロセッサ50は、薄い青色の分割線を、ページCとページDとの間に表示する。分割線78についても同様である。
【0090】
プロセッサ50は、上記のように、各ページ間に分割位置を表す分割線として長方形の図形を配置する以外にも、別の表示態様により分割位置の確信度を表してもよい。例えば、プロセッサ50は、確信度が閾値以上となる分割の位置間にある1または複数のページを、1つの文書として束ねて表示させてもよい。例えば、
図11に示すページAとページBとは、分割位置である確信度が高い分割線64を挟むページである。すなわち、ページAとページBとは、それぞれ別々の文書を構成する確率が80-100%の範囲に含まれる値である。また、
図11に示すページEとページFとは、分割位置である確信度が高い分割線72を挟むページである。すなわち、ページEとページFとは、それぞれ別々の文書を構成する確率が80-100%の範囲に含まれる値である。例えば、上記閾値が80%と設定されている場合、プロセッサ50は、確信度が80%以上となる分割の位置間にある1または複数のページを、1つの文書として束ねて表示させる。すなわち、分割線64,72間のページB,C,D,Eが束ねて表示される。その結果、1つにまとめて表示させたページB-Eは、前のページであるA、および、後のページであるFとは、別々の文書を構成することが表現される。
【0091】
また、プロセッサ50は、確信度に応じて、ページとその隣のページとの間の距離を変えて、複数のページを表示させてもよい。一例として
図11を参照して説明すると、上述したように、ページAとページBとの間に分割位置が存在する可能性は高いため、プロセッサ50は、2つのページA,Bを離して表示させてもよい。一方、ページBとページCとの間に分割位置が存在する可能性は低いため、プロセッサ50は、2つのページB,Cを近づけて表示させてもよい。なお、本例では、確信度が高いほど、ページ間の距離を長くして(すなわち、当該2つのページを離して)、各ページをディスプレイに表示させる設定としたが、もちろん、その逆の表示態様をとってもよい。すなわち、確信度が高いほど、ページ間の距離を短くして、各ページをディスプレイに表示させる設定としてもよい。
【0092】
なお、本実施形態の活用例の1つとして、文書と文書の分割位置が正しいかをユーザが確認することが想定される。例えば、
図11に示す表示態様によれば、確信度が視覚的な情報としてユーザに提供されるため、ユーザは、確信度が中程度である分割線68,78の前後のページのみを確認してもよい。
【0093】
図12は、
図11を一部変更した図であり、表示態様の別の一例を示す図である。
図11と
図12とは、ページA,B,・・・,Lの12枚のページからなる1または複数の文書が一覧表示されている点で共通しているが、分割線の表示態様が一部異なっている。
図12に示す分割線88は、
図9のテーブルでは省略しているが、「薄い青」と「白」の中間概念を意味する線(例えば、色としては「灰」)であり、分割位置の確信度は「薄い青」より低い。例えば、数値で示すと、「灰」は、分割位置である確率が、25-49%であり、「薄い青」は、分割位置である確率が、50-79%と設定される。なお、この場合、「白」は、分割位置である確率が、0-24%と設定される。すなわち、
図12には、分割位置がその確信度に応じた4つの色により表されている。
【0094】
図13は、
図11を一部変更した図であり、表示態様の別の一例を示す図である。ページC,G,H,M,N,Sの左上には、確信度に応じた目印として、付箋96,98,・・・,106が表示されている。付箋は、分割位置を表す図形の一例である。
図13では、
図9中の「薄い青」、すなわち、分割位置の確信度が中程度であるページ上に付箋が表示されている。この目印としての付箋は、それぞれ、分割する位置の次のページに表示される。ページB,Cは、束ねて表示されているが、ページB,Cは、同じ文書を構成するとは限らない。ページC上に付箋を表示することで、ページBとページCとの間に分割位置が存在する可能性が表現される。また、その分割位置の確信度が中程度であることが表現される。
【0095】
また、
図13に示されているページRとページSは、2つの表現形式により表されている。
図13で示すディスプレイに表示される画面において、画面左下のページR,Sは、束ね表示で表され、画面右下のページR,Sは、一覧表示で表されている。ユーザは、画面上でマウスの操作を行うことで、表現形式を切り替えることができる。具体的には、プロセッサ50は、UI44を介して、ユーザからの指示を受け付け、表現形式を切り替える処理を適用する。
図13においては、分割位置の確信度の目印として、束ね表示のページR,S間には、付箋106が表され、一覧表示のページR,S間には、分割線108が表されている。
【0096】
実施形態に係る情報処理システムにおいては、ディスプレイの画面全体の表現形式を、一覧表示と束ね表示とで切り替えることができる。さらに、確信度の目印である付箋と分割線をマウスで操作することにより、その選択された目印の前後のページの表現形式を、ユーザの指示により切り替えられる。なお、この表現形式の切り替えは、束ね表示と一覧表示間で双方から切り替えが可能である。例えば、画像取得装置12が取得した画像データの容量が大きい場合、すなわち、1または複数の文書を構成するページの数が多い場合、一覧表示だと一つの画面に収まらないことがある。かかる場合に、表現形式を一覧表示から束ね表示に切り替えてもよい。一方、束ね表示では、あるページの特徴とその隣のページの特徴との間の差分が視認できない。かかる場合に、束ね形式で表現されたページに表示されている付箋をマウスで操作することにより、表現形式を束ね表示から一覧表示に切り替えてもよい。
【0097】
また、実施形態に係る情報処理システムにおいては、ユーザがマウスの操作により、「分割の修正」と「確定」を指示することもできる。すなわち、プロセッサ50は、UI44を介して、ユーザからの指示を受け付け、「分割の修正」の処理と「確定」の処理をディスプレイに表示された画像データに適用する。
【0098】
分割の修正の処理とは、例えば、分割位置の確信度が高いとして、青色で表示されている付箋や分割線等の目印を、ユーザがマウスをダブルクリックや右クリックをすることにより、白色の表示に変更する処理である。
【0099】
確定の処理とは、例えば、ユーザが図示しない「確定ボタン」を押すことで、その時に画面に示されている表示態様に従って、プロセッサ50が文書毎にデータを分割する処理を適用することを指す。「確定ボタン」としては、「個別確定ボタン」と「一括確定ボタン」が設定されてもよい。「個別確定ボタン」は、分割位置が1つずつマウスで選択されると、その時の表示態様に従って、当該位置で文書を分割するか否かを特定する処理が実行されるボタンである。「一括確定ボタン」は、マウスで当該ボタンが押されると、その時の表示態様に従って、確信度が閾値以上となる分割の位置で複数の文書を1つの文書としてまとめる処理が実行されるボタンである。具体的には、一括確定ボタンを押すと、そのとき青色で表示されている分割位置の前後のページは別々の文書として分けられ、白色で表示されている分割位置の前後のページは1つの文書を構成するものとして同じ1つの文書としてまとめられる。
【0100】
一例として、上述したような分割の修正の指示をユーザが行わない場合であり、ユーザが
図13で示す画面を確認後に一括確定ボタンを押した場合について説明する。青の分割線で表された位置で文書が分割される確率は80-100%の範囲に含まれる値である。したがって、予め確信度の閾値を80%以上と定めている場合、プロセッサ50は、ページAとページBを分割する処理を実行する。同様に、ページCとページDも分割され、ページDとページEも分割され、ページIとJも分割される。ページJ以降も同様である。一方、ページC上には薄い青色の付箋96が表示されている。すなわち、ページBとページC間で文書が分割される確率は40-79%の範囲に含まれる値である。したがって、ページBとページC間で文書が分割される確信度は予め定められた確信度の閾値未満であるため、プロセッサ50は、ページBとページCを分割する処理は実行しない。同様に、ページEからページIの各ページ間に対しても、プロセッサ50は分割処理を実行しない。すなわち、一括確定ボタンが押されると、プロセッサ50は、ページBとページCを1つの文書としてまとめ、同様に、ページEからページIを1つの文書としてまとめる。
【0101】
なお、ここでは、表現形式の切り替え、分割の修正、および、確定、の各処理を適用するためのトリガーとして、ユーザのマウス操作を取り上げたが、これは一例に過ぎない。すなわち、ユーザは、表現形式の切り替え等の指示を行うために、例えば、UI44が有するタッチパネル機能を用いて操作を行ってもよいし、情報処理装置10以外の入力機能を備えた装置により操作を行ってもよい。
【0102】
図14は、
図13を一部変更した図であり、表示態様の別の一例を示す図である。また、
図14には、
図12と同様に、分割位置の確信度が4つの色で表されている。具体的には、
図14には、分割位置の確信度が中程度であることを示す薄い青色の付箋110,114,116,122,124,130が表示されており、薄い青色と白色の中間概念を意味する灰色の分割線112,118,120,126,128,132が表示されている。
図14は、灰色の分割線を表示する点において
図13と異なっているが、それ以外は
図13と同様である。
【0103】
図15は、
図11を変更した図であり、表示態様の別の一例を示す図である。
図15に示すディスプレイの画面左側には、ページA,B,・・・,Iの9枚のページが、束ね表示として束ねて表示されている。上述したように、プロセッサ50は、ユーザの操作により、束ね表示と一覧表示とを切り替えることができる。一部省略しているが、
図15に示すディスプレイの画面右側には、束ね表示から一覧表示に切り替えた後のページF,G,Hが表示されている。
図15においては、プロセッサ50は、確信度が高い分割位置と確信度が中程度の分割位置に付箋を表示している。例えば、本来別々の文書に属する前後のページが1つの文書を構成するとして束ねられることよりも、1つの文書を構成する前後のページが別々の文書に属するとして分割されてしまうことがより問題となることがある。かかる場合に、確信度が高い分割位置と確信度が中程度の分割位置に表示された目印(すなわち、
図15においては、付箋134,136)を一つの目安として、ユーザは確定ボタンを押す前に、文書と文書の分割位置が正しいかの確認をしてもよい。
【0104】
図16は、
図15を一部変更した図であり、表示態様の別の一例を示す図である。
図16には、確信度が高い分割位置に付箋142を表示し、確信度が中程度の分割位置に付箋140を表示している。さらに、
図16では、確信度が低い分割位置にも付箋138を表示している。
図16は、確信度が低い分割位置にも付箋を表示する点において
図15とは異なっているが、それ以外は
図15と同様である。
【0105】
図17は、
図15を一部変更した図であり、表示態様の別の一例を示す図である。
図17には、
図12,14と同様に、分割位置の確信度が4つの色で表されている。
図17には、確信度が高い分割位置に付箋148を表示し、確信度が中程度の分割位置に付箋146を表示している。さらに、
図17では、中程度よりさらに確信度が低い分割位置にも付箋144を表示し、確信度が低い分割位置にも白い付箋を表示している。
図17はこのように分割位置の確信度を4つに分けて表示している点において
図15とは異なっているが、それ以外は
図15と同様である。
【0106】
図18を参照してさらに説明を続ける。
図18には
図11等と同様に、プロセッサ50による「分割する位置を特定する処理」が適用された後の状態が示されている。すなわち、
図18には、当該特定の結果の確信度に応じた表示態様により、複数のページが表示された画面が示されている。
図18に示すように、ページ152とページ154間は、分割位置の確信度が高いため、青色の分割線164が表示されている。同様に、ページ154とページ156間は、分割位置の確信度が高いため、青色の分割線166が表示されている。一方、ページ158とページ160間は、分割位置の確信度が中程度のため、薄い青色の分割線168が表示されている。換言すると、分割線168の前のページ158は、ある文書(仮に「文書3」と称する)の最終ページである確率が中程度である。また、分割線168の後のページ160は、文書3に属する確率が中程度であると同時に、文書3の次の文書(仮に「文書4」と称する)の先頭ページである確率が中程度である。
【0107】
図18に示すディスプレイの画面の上段と下段の図は、ユーザがマウス等を操作することにより、互いに表現形式が切り替えられる。
図18の画面下段に示す例では、分割線168の前後のページ158,160は、別々の文書に属するページとして、当該分割位置で文書が分割されている。しかし、ページ158とページ160が別々の文書に属するとは限らないため、薄い青色の分割線168が表示されることで、ページ158とページ160とは分割されず同じ文書を構成するページの可能性が表現される。
【0108】
以上、プロセッサ50が情報処理装置10の各部の動作を制御して行う一連の処理について説明したが、その他表示態様について、別の処理を適用することもできる。
【0109】
例えば、別の表示態様として、プロセッサ50は、分割の位置が先頭ページの前の位置または最終ページの次の位置のいずれか一方である場合と、分割の位置が先頭ページの前の位置かつ最終ページの次の位置である場合とで、分割の位置の表示態様を区別してディスプレイに表示させてもよい。
図19は、表示態様の別の一例を示す図である。
図19に示す図は、上述した
図11等と同様に、プロセッサ50による「分割する位置を特定する処理」が適用された後の状態が示される。また、プロセッサ50が、分割位置の確信度に応じてディスプレイに分割位置を色分けして表示する点や、分割位置を表すために、各ページ間に分割位置を表す分割線として長方形の図形を配置する点も、
図11等と同様である。
【0110】
以下、文書1,2,3の順番で、各文書を構成する各ページが画像取得装置12によって一括してスキャンされている場合を想定して説明する。まず、プロセッサ50は、スキャンされた複数の文書を文書単位で分割する位置を特定する処理を適用する。当該処理により、ページAはある文書(仮に「文書1」と称する)の最終ページであり、ページBは文書1の次の文書(仮に「文書2」と称する)の先頭ページである、と特定される。また、当該処理により、ページDは文書2の最終ページであると特定される。一方、当該処理により、ページEはある文書(仮に「文書3」と称する)の先頭ページとは特定されなかったとする。すなわち、ページAとページBに挟まれた分割線170で示す分割位置は、確信度が高い(例えば、分割位置である確率が80-100%の範囲である)のに対し、ページDとページEに挟まれた分割線172で示す分割位置は、確信度が分割線170の確信度に比べて低い(例えば、分割位置である確率が40-79%の範囲である)。かかる場合に、プロセッサ50は、分割線170を青色で表示し、分割線172を薄い青色で表示することで、2つの分割位置の確信度の違いを、表示態様を区別してディスプレイに表示させることで表している。なお、本例では色により確信度の違いを表したが、他の表示態様により違いを表してもよい。例えば、分割の位置が先頭ページの前の位置かつ最終ページの次の位置である場合は、分割位置を表すための分割線として長方形の図形を配置する。また、分割の位置が先頭ページの前の位置または最終ページの次の位置のいずれか一方である場合は、分割位置を表すための分割線として二点鎖線の仮想線を配置する。このように、形状の違いにより確信度を表してもよい。
【0111】
なお、上述した実施形態では、分割位置の確信度が算出されているが、分割位置の確信度とは異なる概念を有する確信度が用いられてもよい。例えば、ページの連続の確信度が用いられてもよい。複数のページが連続するか否かということは、当該複数のページが同じ文書を構成するか否かということに対応する。すなわち、あるページ(例えば、ページA)と次のページ(例えば、ページB)との間の連続の確信度が高いほど、ページA,Bは同じ文書を構成する可能性が高い。換言すると、ページAとページBとの間に分割位置が存在する可能性は低い。ページの連続の確信度が高い位置は、ある文書の最終ページと次の文書の先頭ページとの間の分割位置である可能性が低い位置であり、連続の確信度が低い位置は、ある文書の最終ページと次の文書の先頭ページとの間の分割である可能性が高い位置である。すなわち、分割位置の確信度が低いほど、連続の確信度は高くなる。プロセッサ50は、分割位置の確信度に代えて、ページの連続の確信度に基づいて、あるページとその次のページとが連続しているか否かに関する情報をディスプレイに表示させてもよい。例えば、分割位置の表示と同様に、アイコンやマーク等の画像によって、あるページと次のページとが連続しているか否かが表現される。プロセッサ50は、連続の確信度に応じて、アイコンやマーク等の画像の表示態様(例えば、色や形状等)を変える。
【0112】
以上のように、実施の形態に係る情報システムによれば、分割位置の確信度に応じて表示態様を変えることで、ユーザは当該分割位置を特定する処理の精度を視覚的に認識できる。
【0113】
上記の情報処理装置10の機能は、一例としてハードウェアとソフトウェアとの協働により実現される。例えば、プロセッサが、各装置のメモリに記憶されているプログラムを読み出して実行することで、各装置の機能が実現される。プログラムは、CD又はDVD等の記録媒体を経由して、又は、ネットワーク等の通信経路を経由して、メモリに記憶される。
【0114】
上記実施形態において、プロセッサとは広義的なプロセッサを指し、汎用的なプロセッサ(例えばCPU: Central Processing Unit、等)や、専用のプロセッサ(例えばGPU: Graphics Processing Unit、ASIC: Application Specific Integrated Circuit、FPGA: Field Programmable Gate Array、プログラマブル論理デバイス、等)を含むものである。また上記各実施形態におけるプロセッサの動作は、1つのプロセッサによって成すのみでなく、物理的に離れた位置に存在する複数のプロセッサが協働して成すものであってもよい。また、プロセッサの各動作の順序は上記各実施形態において記載した順序のみに限定されるものではなく、適宜変更してもよい。
【0115】
(付記)
(((1)))
プロセッサを有し、
前記プロセッサは、
複数の文書を表す画像データに、前記複数の文書を文書単位で分割する位置を特定する処理を適用し、
前記特定の結果の確信度に応じて表示態様を変えて、前記特定の結果をディスプレイに表示させる、
ことを特徴とする情報処理装置。
(((2)))
前記文書は、1または複数のページで構成され、
前記プロセッサは、
前記画像データに表されている複数のページを前記ディスプレイに表示させ、
ページとその隣のページとの間において、前記特定の結果の確信度に応じた表示態様で前記分割の位置を表現する、
ことを特徴とする(((1)))に記載の情報処理装置。
(((3)))
前記プロセッサは、
前記確信度が閾値以上となる分割の位置間にある1または複数のページを、1つの文書として束ねて前記ディスプレイに表示させる、
ことを特徴とする(((1)))または(((2)))に記載の情報処理装置。
(((4)))
前記プロセッサは、
前記1または複数のページを、1つの文書として束ねて前記ディスプレイに表示させる表現形式と、1つの文書を構成する前記1または複数のページを並べて前記ディスプレイに表示させる表現形式とを、ユーザの指示に従って切り替える、
ことを特徴とする(((1)))から(((3)))のいずれか一項に記載の情報処理装置。
(((5)))
前記プロセッサは、
前記確信度に応じた色または形状で、前記分割の位置を表現する、
ことを特徴とする(((1)))から(((4)))のいずれか一項に記載の情報処理装置。
(((6)))
前記プロセッサは、
前記分割の位置の次のページに前記確信度に応じた目印を付して、前記複数のページを前記ディスプレイに表示させる、
ことを特徴とする(((1)))から(((5)))のいずれか一項に記載の情報処理装置。
(((7)))
前記プロセッサは、
前記確信度に応じて、ページとその隣のページとの間の距離を変えて、前記複数のページを前記ディスプレイに表示させる、
ことを特徴とする(((2)))に記載の情報処理装置。
(((8)))
前記プロセッサは、
ユーザの指示により、前記分割の位置の表示態様を変更する、
ことを特徴とする(((1)))から(((7)))のいずれか一項に記載の情報処理装置。
(((9)))
前記プロセッサは、
前記確信度が閾値以上となる分割の位置で、前記複数の文書を分割する、
ことを特徴とする(((1)))から(((8)))のいずれか一項に記載の情報処理装置。
(((10)))
前記プロセッサは、
前記複数の文書を構成する前記各ページから特徴を抽出し、
ページごとに、ページの特徴とその隣のページの特徴との間の差分を抽出し、
前記差分に基づいて、前記分割の位置を特定する、
ことを特徴とする(((1)))から(((9)))のいずれか一項に記載の情報処理装置。
(((11)))
前記プロセッサは、
前記差分に基づいて、前記複数の文書の先頭ページを特定し、
前記先頭ページとその前のページとの間の位置を前記分割の位置として特定する、
ことを特徴とする(((10)))に記載の情報処理装置。
(((12)))
前記プロセッサは、
前記差分に基づいて、前記複数の文書の最終ページを特定し、
前記最終ページとその次のページとの間の位置を前記分割の位置として特定する、
ことを特徴とする(((10)))に記載の情報処理装置。
(((13)))
前記プロセッサは、
前記差分に基づいて、前記複数の文書の先頭ページと最終ページとを特定し、
当該特定の結果に基づいて、前記分割の位置を特定する、
ことを特徴とする(((10)))に記載の情報処理装置。
(((14)))
前記プロセッサは、
前記分割の位置が前記先頭ページの前の位置または前記最終ページの次の位置のいずれか一方である場合と、前記分割の位置が前記先頭ページの前の位置かつ前記最終ページの次の位置である場合とで、前記分割の位置の表示態様を区別して前記ディスプレイに表示させる、
ことを特徴とする(((13)))に記載の情報処理装置。
(((15)))
コンピュータに、
複数の文書を表す画像データに、前記複数の文書を文書単位で分割する位置を特定する処理を適用させ、
前記特定の結果の確信度に応じて表示態様を変えて、前記特定の結果をディスプレイに表示させる、
ことを特徴とするプログラム。
(((16)))
画像取得装置と、情報処理装置と、端末装置と、を含み、
前記画像取得装置は、第1のプロセッサを備え、
前記第1のプロセッサは、
複数の文書を表す画像データを取得して、当該画像データを前記情報処理装置に送信し、
前記情報処理装置は、第2のプロセッサを備え、
前記第2のプロセッサは、
前記複数の文書を表す画像データを受け付け、
当該画像データに、前記複数の文書を文書単位で分割する位置を特定する処理を適用し、
当該特定の結果の確信度に応じた表示態様を示す情報を前記端末装置に送信し、
前記端末装置は、第3のプロセッサを備え、
前記第3のプロセッサは、
前記情報を受け付け、前記確信度に応じた前記表示態様で、前記特定の結果をディスプレイに表示させる、
ことを特徴とする、システム。
【0116】
(((1)))-(((3))),(((5)))-(((7))),(((14))),(((15))),(((16)))に係る発明によれば、分割位置の確信度に応じて表示態様を変えることで、ユーザは当該分割位置を特定する処理の精度を視覚的に認識できる。
(((4)))に係る発明によれば、ユーザの指示により、ディスプレイに表示させる表現形式を変更できる。
(((8)))に係る発明によれば、ユーザの指示により、分割位置の表示態様を変更できる。
(((9)))に係る発明によれば、分割位置の確信度が閾値以上の場合に、複数の文書を文書単位で分割できる。
(((10)))-(((13)))に係る発明によれば、ページ間の特徴の差分に基づいて、分割位置を特定できる。
【符号の説明】
【0117】
10 情報処理装置、12 画像取得装置、14 端末装置、44 UI、46 通信装置、48 メモリ、50 プロセッサ。