(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6595503
(24)【登録日】2019年10月4日
(45)【発行日】2019年10月23日
(54)【発明の名称】選択されたページ領域コンテンツからの文書ページ識別子
(51)【国際特許分類】
G06F 17/27 20060101AFI20191010BHJP
G06F 16/908 20190101ALI20191010BHJP
【FI】
G06F17/27 645
G06F16/908
【請求項の数】15
【全頁数】14
(21)【出願番号】特願2016-567451(P2016-567451)
(86)(22)【出願日】2015年1月27日
(65)【公表番号】特表2017-507444(P2017-507444A)
(43)【公表日】2017年3月16日
(86)【国際出願番号】US2015013140
(87)【国際公開番号】WO2015116602
(87)【国際公開日】20150806
【審査請求日】2018年1月22日
(31)【優先権主張番号】14/171,300
(32)【優先日】2014年2月3日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】515028551
【氏名又は名称】ブルービーム インコーポレイテッド
【氏名又は名称原語表記】Bluebeam,Inc.
(74)【代理人】
【識別番号】100105957
【弁理士】
【氏名又は名称】恩田 誠
(74)【代理人】
【識別番号】100068755
【弁理士】
【氏名又は名称】恩田 博宣
(74)【代理人】
【識別番号】100142907
【弁理士】
【氏名又は名称】本田 淳
(72)【発明者】
【氏名】ハートマン、ブライアン
(72)【発明者】
【氏名】ノイス、ペーター
【審査官】
長 由紀子
(56)【参考文献】
【文献】
特開平10−171788(JP,A)
【文献】
特開平11−203282(JP,A)
【文献】
特開平08−137880(JP,A)
【文献】
特開2006−260570(JP,A)
【文献】
特開2006−350551(JP,A)
【文献】
特開2009−026122(JP,A)
【文献】
米国特許第08566711(US,B1)
【文献】
米国特許出願公開第2002/0118379(US,A1)
【文献】
米国特許出願公開第2012/0047090(US,A1)
【文献】
米国特許出願公開第2011/0145691(US,A1)
【文献】
特開2011−065621(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/20−28
G06F 16/00−958
(57)【特許請求の範囲】
【請求項1】
コンピュータ上に記憶され、複数のページを有し、各ページがページコンテンツを有する電子文書に、自動的にインデックスを付ける方法であって、
前記文書の前記複数のページのうちの第1のページ内の第1の領域の選択をユーザから受け取る工程であって、前記第1の領域は、前記複数のページのうちの前記第1のページに対して第1の境界セットによって画定され、第1のベース選択ページコンテンツを含む、受け取る工程と、
前記複数のページのうちの前記第1のページから前記第1のベース選択ページコンテンツのテキスト文字列をユーザ介入なく取り出す工程と、
前記第1のベース選択ページコンテンツの取り出された前記テキスト文字列を、前記複数のページのうちの前記第1のページに関連付けられているページ・ロケーション・インデックスに、ユーザ介入なく割り当てる工程と、
前記複数のページのうちの第2のページから第1の複製された選択ページコンテンツのテキスト文字列をユーザ介入なく取り出す工程であって、前記第1の複製された選択ページコンテンツは、前記複数のページのうちの前記第2のページに対して前記第1の境界セットによって画定された同じ前記第1の領域内に含まれる、取り出す工程と、
前記第1の複製された選択ページコンテンツの取り出された前記テキスト文字列を、前記複数のページのうちの前記第2のページのページ・ロケーション・インデックスに、ユーザ介入なく割り当てる工程と、
前記第1の領域に関連付けられている第1のフィールド・コードを含む書式構造を受け取る工程とを、備え、
第1のベース選択ページコンテンツのテキスト文字列を取り出す前記工程は、前記書式構造に従って前記第1のベース選択ページコンテンツの前記テキスト文字列を配置する工程を含み、前記第1のベース選択ページコンテンツは、前記第1のフィールド・コードに置き換えられる、方法。
【請求項2】
前記ページ・ロケーション・インデックスはページ・ラベルである、請求項1に記載の方法。
【請求項3】
前記ページ・ロケーション・インデックスの1つは、付加されたページ・ブックマークである、請求項1に記載の方法。
【請求項4】
第1の領域の選択を受け取る前記工程は、前記第1の境界セットに対応する第1の点および第2の点のカーソル入力で指定された前記文書上のグラフィックで選択された区域を含む、請求項1に記載の方法。
【請求項5】
第1のベース選択ページコンテンツのテキスト文字列を取り出す前記工程は、
前記第1のベース選択ページコンテンツ内に位置決めされた基礎的なテキスト・データを抽出する工程をさらに含む、請求項1に記載の方法。
【請求項6】
第1のベース選択ページコンテンツのテキスト文字列を取り出す前記工程は、
前記第1のベース選択ページコンテンツを光学式文字認識(OCR)モジュールにより構文解析し、前記第1のベース選択ページコンテンツの前記テキスト文字列を生成する工程をさらに含む、請求項1に記載の方法。
【請求項7】
第1の複製された選択ページコンテンツのテキスト文字列を取り出す前記工程は、
前記第1の複製された選択ページコンテンツを前記OCRモジュールにより構文解析し、前記第1の複製された選択ページコンテンツの前記テキスト文字列を生成する工程をさらに含む、請求項6に記載の方法。
【請求項8】
第1の複製された選択ページコンテンツのテキスト文字列を取り出す前記工程は、前記書式構造に従って第2のテキスト文字列を配置する工程を含み、前記第1の複製された選択ページコンテンツは、第1のフィールド・コードに置き換えられる、請求項1に記載の方法。
【請求項9】
前記書式構造に従って配置されるように前記第1のベース選択ページコンテンツの前記テキスト文字列のプレビューを表示する工程をさらに備える、請求項1に記載の方法。
【請求項10】
前記第1の領域が方形である、請求項1に記載の方法。
【請求項11】
前記文書の前記複数のページのうちの第1のページ内の第2の領域の選択を受け取る工程であって、前記第2の領域は、前記複数のページのうちの前記第1のページに対して第2の境界セットによって画定され、第2のベース選択ページコンテンツを含む、受け取る工程と、
前記複数のページのうちの前記第1のページから前記第2のベース選択ページコンテンツのテキスト文字列を取り出す工程と、
前記第2のベース選択ページコンテンツの取り出された前記テキスト文字列を前記複数のページのうちの前記第1のページのページ・ロケーション・インデックスに割り当てる工程と、
前記複数のページのうちの第2のページから第2の複製された選択ページコンテンツのテキスト文字列をユーザ介入なく取り出す工程であって、前記第2の複製された選択ページコンテンツは、前記複数のページのうちの前記第2のページに対して前記第2の境界セットによって画定された同じ前記第2の領域内に含まれる、取り出す工程と、
前記第2の複製された選択ページコンテンツの取り出された前記テキスト文字列を前記複数のページのうちの前記第2のページのページ・ロケーション・インデックスに割り当てる工程と、をさらに備える、請求項1に記載の方法。
【請求項12】
前記第1の領域に関連付けられている第1のフィールド・コード、前記第2の領域に関連付けられている第2のフィールド・コード、および少なくとも1つのフィールド区切り文字を含む書式構造を受け取る工程をさらに備え、
第1のベース選択ページコンテンツのテキスト文字列を取り出す前記工程は、前記書式構造に従って、前記第1のベース選択ページコンテンツおよび前記第2のベース選択ページコンテンツの前記テキスト文字列ならびに前記少なくとも1つのフィールド区切り文字を連結する工程を含み、前記第1のベース選択ページコンテンツは、前記第1のフィールド・コードに置き換えられ、前記第2のベース選択ページコンテンツは、前記第2のフィールド・コードに置き換えられる、請求項11に記載の方法。
【請求項13】
前記書式構造に従って配置されるように前記第1のベース選択ページコンテンツおよび前記第2のベース選択ページコンテンツの前記テキスト文字列のプレビューを表示する工程をさらに備える、請求項12に記載の方法。
【請求項14】
前記フィールド区切り文字はスペース文字である、請求項12に記載の方法。
【請求項15】
第1のベース選択ページコンテンツのテキスト文字列を取り出す前記工程は、
前記第1のベース選択ページコンテンツを光学式文字認識(OCR)モジュールにより構文解析し、前記第1のベース選択ページコンテンツの前記テキスト文字列を生成する工程をさらに含み、
第1の複製された選択ページコンテンツのテキスト文字列を取り出す前記工程は、
前記第1の複製された選択ページコンテンツを前記OCRモジュールにより構文解析し、前記第1の複製された選択ページコンテンツの前記テキスト文字列を生成する工程をさらに含み、
第2のベース選択ページコンテンツのテキスト文字列を取り出す前記工程は、
前記第2のベース選択ページコンテンツを光学式文字認識(OCR)モジュールにより構文解析し、前記第2のベース選択ページコンテンツの前記テキスト文字列を生成する工程をさらに含み、
第2の複製された選択ページコンテンツのテキスト文字列を取り出す前記工程は、
前記第2の複製された選択ページコンテンツを前記OCRモジュールにより構文解析し、前記第2の複製された選択ページコンテンツの前記テキスト文字列を生成する工程をさらに含む、請求項11に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、一般に、電子文書管理に関し、より詳細には、選択されたページ領域内のコンテンツから固有の文書ページ識別子をユーザ介入なく自動的に生成することに関する。
【背景技術】
【0002】
情報の作成、分配、および管理は、基礎的なビジネス機能である。情報またはコンテンツは、ワード・プロセッシング文書、スプレッドシート、グラフィックス、写真、技術図面、建築計画などを含む様々な異なる方法で提示することができる。電子形式では、これらは一般に文書と呼ばれており、その文書に特有のコンピュータ・ソフトウェア・アプリケーションによって生成および操作することができる。電子文書を作成、確認、および/または編集するワークフローは、様々な分野の特有の要件に対応するために発展してきたが、デバイスに依存しない、解像度に依存しないファイル形式の必要により、ポータブル・ドキュメント・フォーマット(PDF)が、他の競合する形式の中でも広範に採用されることになった。したがって、ワークフローの細目にかかわらず、多種多様なオペレーティング・システム、アプリケーション・プログラム、ならびに処理およびグラフィック表示能力を有する異なるプラットホームに対応することができる。
【0003】
PDF規格は、簡略化されたポスト・スクリプト・インタプリタ・サブシステム、フォント埋め込みサブシステム、および記憶サブシステムを含む複数の技術の組合せである。当業者には理解されるように、ポスト・スクリプトは、文書のレイアウトおよびグラフィックスを生成するページ記述言語である。さらに、PDF記憶サブシステムの要件に従って、本明細書では集合的にグラフィック要素と呼ぶテキスト、ベクトル・グラフィックス、およびラスタ(ビットマップ)・グラフィックスを含む文書のすべての要素が、単一のファイルにカプセル化される。グラフィック要素は、特有のオペレーティング・システム、ソフトウェア・アプリケーション、またはハードウェアに対して符号化されるのではなく、そのようなデータを書き込みまたは読み取るシステムに関する特異性にかかわらず、同様に描画されるように設計される。PDFのクロスプラットフォーム能力は、その広範な採用に役立ち、現在では、事実上の文書交換標準である。PDFは、当初は独占権下にあったが、国際標準化機構(ISO)によってISO/IEC3200−1:2008として公開され、オープン標準として公表されている。現在、PDFは、主としてテキストから構成されるもの、ならびに主としてベクトルおよびラスタ・グラフィックスから構成されるものを含む、多種多様な文書タイプを符号化するために利用される。その多用性および普遍性のため、PDF形式のファイルは、特有のアプリケーションのより特定化されたファイル形式に比べて、好まれることが多い。
【0004】
工学および建築などの技術分野では、1つのプロジェクトは、概して、多数の専門家が広い範囲の部門に及ぶ複数の態様を伴う。計画文書、たとえば図面は、各部門に特有であるが、1つの態様の変更は、別の態様でもそれに対応する変更を必要とすることがあり、以下同様である。たとえば、建築工事プロジェクトでは、構造的な態様に関して1組の計画があり、暖房/換気/空調(HVAC)の態様に関して別の1組の計画があり、また配管に関して別の1組の計画があり、電気に関して別の1組の計画があり、以下同様である。プロジェクトを正確に実施することができるように、プロジェクトの仕様を正確に伝えるために、計画文書には高いレベルの詳細が必要である。電子文書を拡大および縮小する機能により、この問題はある程度軽減されるが、それにもかかわらず、任意の1つのページ内に収容される情報のサイズおよび量は、閲覧、編集、および注釈が複雑な入力/インタフェース操作を必要としないように、必要な詳細をすべて保持しながら、管理可能なままに抑えなければならない。したがって、コンテンツは、複数のページに分離される。
【発明の概要】
【発明が解決しようとする課題】
【0005】
典型的な1組の図面では、PDFで記憶されるかそれとも他の形式で記憶されるかにかかわらず、タイトル、図面番号、プロジェクト名/識別子、施設識別子および/またはアドレス、測定単位などのヘッダ情報を編成された形で提示するために、標準的な規則が利用される。この規則は、典型的にはタイトル・ブロックであり、タイトル・ブロックは通常、文書内の各ページ上の同じロケーションに位置決めされる。このヘッダ情報は、ヘッダ情報が位置する特定のページを閲覧するときに有用であるが、ヘッダ情報自体が文書コンテンツの一部であり、閲覧/編集アプリケーションが文書をカタログ登録および編成するために、このヘッダ情報を使用することはできない。あるページに関連して記憶される任意のメタデータの範囲は、文書内の他のページに対するページ番号に制限され、さらなる記述子を含まないことが多い。
【0006】
各ページにラベルを付けるためにそのような記述情報を追加することは、人間の介入を必要とする、骨の折れる、誤りを犯しやすい、時間のかかる工程である。従来の工程では、各ページのコンテンツから所望のヘッダ情報を視覚的に探索して確認した後、編集アプリケーションのユーザ・インタフェースを通じて、そのヘッダ情報を書式フィールド内へ手で打ち込む必要がある。その後、追加されたメタデータは、後の探索および編成の目的で使用することができるようになる。前述の手順は、ページ上の特定のロケーションに対してブックマークが作成されているのか、それともページにラベルが付けられているのかにかかわらず必要とされた。1または2ページのみを有する文書にラベル/ブックマークを付けるのは、ささいなことであるかもしれないが、典型的なプロジェクト計画文書は、数十から数百ページに及ぶ。さらに、精密な記述子を生成するには、ページの複数の異なる部分からの情報が必要とされる可能性もある。そのようなより大きくより複雑な文書の場合、このタスクを完了するために必要な時間は、数時間に増大する可能性がある。
【0007】
したがって、選択されたページ領域内のコンテンツから固有の文書ページ識別子をユーザ介入なく自動的に生成する方法が、当技術分野で必要とされている。
【課題を解決するための手段】
【0008】
文書コンテンツの1つまたは複数の領域のコンテンツから抽出されたテキスト・データによる複数ページ文書上のブックマークまたはページ・ラベルの自動生成が開示される。本開示の一実施形態によれば、コンピュータ上に記憶され、複数のページを有し、各ページがページコンテンツを有する電子文書に、自動的にインデックスを付ける方法が提供される。この方法は、文書の複数のページのうちの第1のページ内の第1の領域の選択をユーザから受け取ることを備えることができる。第1の領域は、複数のページのうちの第1のページに対して第1の境界セットによって画定することができる。加えて、第1の領域は、第1のベース選択ページコンテンツを含むことができる。この方法はまた、複数のページのうちの第1のページから第1のベース選択ページコンテンツのテキスト文字列をユーザ介入なく取り出すことを備えることができる。さらに、この方法は、第1のベース選択ページコンテンツの取り出されたテキスト文字列を、複数のページのうちの第1のページに関連付けられているページ・ロケーション・インデックスに、ユーザ介入なく割り当てる工程を備えることができる。複数のページのうちの第2のページから第1の複製された選択ページコンテンツのテキスト文字列をユーザ介入なく取り出す工程も備えることができる。第1の複製された選択ページコンテンツは、複数のページのうちの第2のページに対して第1の境界セットによって画定された同じ第1の領域内に含むことができる。この方法はまた、第1の複製された選択ページコンテンツの取り出されたテキスト文字列を、複数のページのうちの第2のページのページ・ロケーション・インデックスに、ユーザ介入なく割り当てることを備えることができる。
【0009】
本開示の別の実施形態は、文書内の複数のページにラベルを自動的に付ける方法を企図する。この方法は、複数のページのうちの第1のページ上の1つまたは複数のページ領域選択を受け取ることを備えることができる。各ページ領域選択は、ラベルコンテンツを中に含むことができる。複数の選択されたページからの1つまたは複数のラベルコンテンツを、テキスト・データとしてユーザ介入なく抽出する工程も備えることができる。これは、それぞれの1つまたは複数のページ領域選択に基づいて行うことができる。この方法は、対応するラベルコンテンツのテキスト・データを、特定のラベルコンテンツが抽出されたページに対するラベルとして割り当てることをさらに備えることができる。
【0010】
さらに別の実施形態は、文書内の複数のページに対するブックマークを自動的に生成する方法を対象とする。複数のページのうちの第1のページ上の1つまたは複数のページロケーション選択を受け取る工程を備えることができる。各ページロケーション選択は、ブックマークコンテンツを中に含むことができる。この方法はまた、それぞれの1つまたは複数のページロケーション選択に基づいて、複数の選択されたページからの1つまたは複数のブックマークコンテンツを、テキスト・データとしてユーザ介入なく抽出することを含むことができる。この方法は、対応するブックマークコンテンツのテキスト・データで、特定のラベルコンテンツが抽出されたページに対するブックマークを生成する工程をさらに伴うことができる。
【0011】
本開示の特定の他の実施形態は、上記の方法を実施するためにデータ・プロセッサによって実行可能な命令の1つまたは複数のプログラムを有形に実施するデータ・プロセッサによって可読の非一時的プログラム記憶媒体を企図する。本開示は、以下の詳細な説明を参照しながら図面とともに読めば、最もよく理解されるであろう。
【0012】
本明細書に開示する様々な実施形態の上記その他の特徴および利点は、以下の説明および図面を参照すればよりよく理解されるであろう。
【図面の簡単な説明】
【0013】
【
図1】表示モニタを含む本発明の態様で使用するための機能を実施することを可能とすることができる例示的なコンピュータ・システムの図。
【
図2】
図1の例示的なコンピュータ・システムのシステム構成要素のブロック図。
【
図3】複数のページを含み、各ページがコンテンツおよびロケーション・インデックスを有する文書の例示的な構造を示す図。
【
図4】選択されたページ領域を画定するインタフェース要素と、固有のページ識別子を生成するための手順を開始するインタフェース要素とを含む、選択されたページ領域内のコンテンツから固有のページ識別子を生成するための企図される方法の様々な態様を実施する文書管理ソフトウェア・アプリケーションに対するユーザ・インタフェースのダイアログ・ウィンドウの図。
【
図5A】閲覧のために描画された文書の複数のページのうちの第1のページを示す文書管理ソフトウェア・アプリケーションに対するユーザ・インタフェースの抜粋部分の図。
【
図5B】文書の複数のページのうちの第2のページが閲覧のために描画されている、文書管理ソフトウェア・アプリケーションに対するユーザ・インタフェースの別の抜粋部分の図。
【
図6】本開示による固有のページ識別子を生成する方法の一実施形態を示すフロー・チャート。
【
図7A】第1のページ領域の選択を受け取る1実装形態を示す図。
【
図7B】第2のページ領域の選択を受け取ることを示す図。
【
図8】選択されたページ領域を画定するインタフェース要素と、固有のページ識別子を生成するための手順を開始するインタフェース要素とを含む、文書管理ソフトウェア・アプリケーションに対するユーザ・インタフェースの別のダイアログ・ウィンドウの図。
【発明を実施するための形態】
【0014】
図面および詳細な説明全体にわたって、同じ要素を示すために共通の参照番号が使用される。
添付の図面に関連して以下に述べる詳細な説明は、選択されたページ領域内のコンテンツから固有の文書ページ識別子を生成するための現在好ましい実施形態の方法に関する説明であることが意図される。本詳細な説明は、本方法を実現または利用することができる唯一の形態を代表しようとするものではない。本説明は、図示の実施形態に関連して本発明を実現して動かすための機能および工程の順序について述べる。しかし、本発明の精神および範囲内に包含されることが意図される異なる実施形態によって、同じまたは同等の機能および順序を実現することができることを理解されたい。第1、第2などの関係を示す用語の使用は、ある実体を別の実体から区別するためだけに使用されるものであり、そのような実体間のいかなる実際のそのような関係または順序をも必ずしも必要とする、または示唆するとは限らないことをさらに理解されたい。
【0015】
図1は、文書管理および配置の企図される方法の様々な態様を実施することができる例示的なハードウェア環境を示す。概して、コンピュータ・システム10が、システム・ユニット12およびディスプレイ・デバイス14を有する。ディスプレイ・デバイス14は、システム・ユニット12によって実施されるデータ処理動作からグラフィック出力を作製する。たとえば、データ処理動作に対応する入力を生成するために、ユーザはキーボード16およびマウス18を含む入力デバイスを操作することができ、これらの入力デバイスは、ポート20を通じてシステム・ユニット12に接続される。様々な他の入力および出力デバイスをシステム・ユニット12に接続することもでき、異なる相互接続の様相が当技術分野では知られている。
【0016】
図2のブロック図に示すように、システム・ユニット12は、プロセッサ(CPU)22を含み、CPU22は、任意の従来のタイプとすることができる。システム・メモリ(RAM)24が、CPU22によって実施されたデータ処理動作の結果を一時的に記憶し、RAM24は、典型的には専用のメモリ・チャネル26を通じてCPU22に相互接続される。システム・ユニット12はまた、ハード・ドライブ28などの持続的記憶デバイスを含むことができ、ハード・ドライブ28もまた、入出力(I/O)バス30を通じてCPU22と通信する。専用のグラフィックス・モジュール32もまた、ビデオ・バス34を通じてCPU22に接続することができ、表示データを表す信号をディスプレイ・デバイス14へ伝送する。上記のように、キーボード16およびマウス18は、ポート20を通じてシステム・ユニット12に接続される。ポート20がUSBタイプである実施形態では、ポート20を通じて接続された外部周辺機器のためにCPU22との間でデータおよび命令を変換するUSBコントローラ35を設けることができる。プリンタ、マイクロフォン、スピーカなどの追加のデバイスも、それによってシステム・ユニット12に接続することができる。
【0017】
システム・ユニット12は、マイクロソフト社[米国ワシントン州レッドモンド所在]によるWINDOWS(登録商標)、アップル社[米国カリフォルニア州クパチーノ所在]によるMAC OS、X−Windowsウィンドウ生成システムによる様々なバージョンのUNIX(登録商標)など、グラフィカル・ユーザ・インタフェース(GUI)を有する任意のオペレーティング・システムを利用することができる。システム・ユニット12は、1つまたは複数のコンピュータ・プログラムを実行し、その結果が、ディスプレイ・デバイス14上に表示される。概して、オペレーティング・システムおよびコンピュ
ータ・プログラムは、コンピュータ可読媒体、たとえばハード・ドライブ28内で、有形に実施される。オペレーティング・システムとコンピュータ・プログラムはどちらも、CPU22による実行のために、前述のデータ記憶デバイスからRAM24内へロードされ得る。コンピュータ・プログラムは、命令を含むことができ、これらの命令は、CPU22によって読み取られて実行されたとき、本開示に記載の様々な実施形態の工程または特徴を、CPU22に実施または実行させる。
【0018】
一実施形態によれば、ユーザは、マウス18を通じて、コンピュータ・システム10と対話することができ、具体的にはディスプレイ・デバイス14上に生成されているグラフィックスと対話することができる。ディスプレイ・デバイス14上に生成されるカーソルの動きは、マウス18の動きに結び付けられており、マウス・ボタンからの入力により、さらなる対話性が提供される。キーボード16からの入力もまた、コンピュータ・システム10との対話性を提供する。
【0019】
本開示の特定の特徴について、そのような入力および出力能力を有するコンピュータ・システムに関連して説明するが、その詳細は、限定ではなく例のみとして提示するものである。タッチ・インタフェースおよびペン/デジタイザ・インタフェースなどの任意の代替グラフィカル・ユーザ・インタフェースに置き換えることもできる。これらの特徴の類似物は、同じ機能を実現しながらこれらの代替インタフェースに対応するための適した変形形態とともに、容易に理解されるであろう。
【0020】
これらの文脈に沿って、上記コンピュータ・システム10は、本開示の態様を実施するのに適した多くの他の装置のうちの1つの例示的な装置のみを代表し、これらの構成要素の最も基本的なことについてのみ説明する。コンピュータ・システム10は、本明細書に記載しない追加の構成要素を含むことができ、異なる構成および構造を有することができることを理解されたい。任意のそのような代替は、本開示の範囲内にあると見なされる。
【0021】
重ねて、本開示は、各ページ上の1つまたは複数の選択された領域からのテキストを組み込むことによって、複数ページ文書上にブックマークおよび/またはページ・ラベルを自動的に生成する工程を対象とする。この工程は、一連の実行可能な命令として文書管理ソフトウェア・アプリケーション内で実施することができる。本明細書で利用するとき、文書という用語は、そのような文書管理ソフトウェア・アプリケーションによって開き、描画し、かつ/または編集することができるデータの独立型の表現を指す。したがって、文書は、その要素を一貫して描画することができるような特定の形式および構造とすることができる。本明細書に論じる例示的な実施形態では、文書管理ソフトウェア・アプリケーションは、PDF文書を処理するものであり、以下の説明は、PDF文書に及ぶ。任意の他のソフトウェア・アプリケーションによって編集可能または閲覧可能な任意の他の形式の文書に置き換えることもできる。
【0022】
図3の図を参照すると、本開示の様々な実施形態によれば、文書38が、1つまたは複数のページ40から構成される。特定の例では、第1のページ40a、第2のページ40b、および第3のページ40cが設けられる。追加のページ40を設けることもできるが、これらは図示しない。各ページは、関連付けられているロケーション・インデックス42およびコンテンツ44を有し、数字のページ番号値によって順序付けられる。文書が文書管理ソフトウェア・アプリケーションのユーザ・インタフェース内に描画されるとき、それぞれのページ40内のコンテンツ44は、数字のページ番号値によって画定される順序で提示することができる。典型的には、ハード・ドライブ28または任意の他のアクセス可能な記憶デバイスの階層ファイル・システム上の単一のファイル内に、単一の文書が記憶される。
【0023】
企図される工程は、
図4に示すように、ダイアログ・ウィンドウ46を起動する前工程で始まることができる。ページ40内に含むことができまたはページ40に付加することができる特有のブックマークに基づいてページ・ラベルを生成するための第1のオプション48またはページ領域に基づいてページ・ラベルを生成する第2のオプション50という、2つのオプションが提示される。ダイアログ・ウィンドウ46は、文書管理ソフトウェア・アプリケーションのユーザ・インタフェースの他の部分から、様々な方法で呼び出すことができる。以下でより詳細に説明するように、ページ40内でページ・ラベルが生成される領域を選択することが可能であり、特有の選択工程は、選択ボタン52を起動することによって開始される。加えて、工程が適用されるページの範囲は、ドロップダウン・メニュー54を通じて選択される。デフォルト値は、文書38内のページ40のすべてとすることができるが、異なる範囲を選択することもできる。ダイアログ・ウィンドウ46の細目は、限定ではなく例のみとして提示したものであり、工程を開始するために、任意の適したインタフェースをユーザに提示することができる。
【0024】
図5Aは、具体的には1次ウィンドウ55と呼ばれる、文書管理ソフトウェア・アプリケーションに対するユーザ・インタフェースの抜粋部分を示す。1次ウィンドウ55内には、文書38、より詳細には第1のページ40aが、そのコンテンツ44の描画とともに表示される。限定ではなく例のみとして、コンテンツ44は、タイトル・ブロック56を含むことができ、タイトル・ブロック56内には、第1のページ40aに特有の様々な情報が含まれる。
図5Bもまた1次ウィンドウ55を示すが、文書38の第2のページ40bが、その特定のコンテンツ44の描画とともに表示される。コンテンツ44は同様に、タイトル・ブロック56を含むが、タイトル・ブロック56内には、具体的には第2のページ40bに関する異なる情報が含まれる。第1のページ40aに対するタイトル・ブロック56のロケーションは、第2のページ40bに対するタイトル・ブロック56のロケーションと同じであることが理解される。第1のページ40aのタイトル・ブロック56内には、例示的なテキスト「S3.1」および「基礎の詳細」が含まれる。
【0025】
図6のフロー・チャートを次に参照すると、コンピュータ・システム10上に記憶された文書38に自動的にインデックスを付ける方法は、文書38の第1のページ40a内の第1の領域の選択を受け取る工程200を進める。この工程は、ダイアログ・ウィンドウ46内の選択ボタン52の起動を検出したことに応答して開始することができる。
図7Aのタイトル・ブロック56の拡大図に最もよく示すように、第1の領域58は、左上隅60aと、対角線状に対向する右下隅60bとによって画定され、したがって方形の形状である。これらの境界は、第1のページ40aに対して画定されると理解される。例示的なテキスト「S3.1」を取り囲む第1の領域58は、左上隅60a上にマウス・カーソル62を位置決めし、マウス・ボタンをクリックし、マウス・カーソル62を右下隅60bへドラッグすることによって選択することができる。この点に関して、選択されたコンテンツ、たとえば例示的なテキスト「S3.1」を、第1のベース選択ページコンテンツ64と呼ぶこともできる。グラフィカル・ユーザ・インタフェース上の領域を選択する他の方法も知られており、そのような代替方法も本開示の範囲内であると見なされる。たとえば、複数の線分からなる多角形は、各多角形線分をグラフィックによって指定することによって領域を選択するための基本とすることができる。ページ・ラベルを付けることに特有の方法ならびにブックマークを生成する方法では、工程200は、各ページがそれぞれラベルまたはブックマークコンテンツを中に含む複数のページ40のうちの第1のページ上の1つまたは複数のページ領域選択を受け取ることに対応すると理解される。
【0026】
この方法は、第1のページ40aから第1のベース選択ページコンテンツ64のテキスト文字列をユーザ介入なく取り出す工程202を続ける。第1のベース選択ページコンテンツ64は、文書38内の基本的なテキスト/文字データを記憶することができる。そのような場合、この取出検索工程は、第1の領域58内に位置すると判定された基礎的なテ
キスト・データを抽出することを伴うことができる。別法として、第1のページ選択ページコンテンツ64は、ベクトルまたはラスタ・グラフィックとして記憶することができる。これが該当する場合、取出工程は、そのようなコンテンツを光学式文字認識(OCR)モジュールにより構文解析し、対応するテキスト文字列を生成することをさらに含むことができる。OCRモジュールは、文書管理ソフトウェア・アプリケーションによって外部から呼び出され、文書管理ソフトウェア・アプリケーションに継ぎ目なく統合される。ページ・ラベルを付けることに特有の方法またはブックマークを生成する方法の場合、工程202は、複数の選択されたページからのそれぞれ1つまたは複数のラベルまたはブックマークコンテンツを、テキスト・データとしてユーザ介入なく抽出することに対応する。抽出される特有のテキスト・データは、前の工程でユーザによって行われたページ位置選択に基づく。
【0027】
第1のベース選択ページコンテンツ64の取り出されたテキスト文字列は、次いで、方法の工程204によって、第1のページ40aに関連付けられているページ・ロケーション・インデックス42aに、ユーザ介入なく割り当てられる。ページ・ロケーション・インデックス42aは、たとえば、編成および探索の目的で第1のページ40aの記述子として働くページ・ラベル・メタデータであると理解される。別法として、ページ・ロケーション・インデックス42は、第1のページ40aに付加されるブックマークとすることができる。工程204は、ラベルを自動的に付けまたはブックマークを生成する方法で指示した以前の工程で特定のテキスト・データが抽出された特定のページに、ラベルまたはブックマークコンテンツのテキスト・データを割り当てることに付随すると理解される。
【0028】
前述の手順は、文書38の選択されたページ範囲の一部である各後続ページ40に対して繰り返される。特に、この方法は、第1の複製された選択ページコンテンツ66のテキスト文字列をユーザ介入なく取り出す工程206を含む。上記のように、ユーザは、第1の領域58の選択を指定するが、これは第1のページ40aの空間的文脈内にある。第2のページ40bの空間的文脈内にあるが、同じ境界によって画定される同じ第1の領域58内に見られる基礎的なテキストまたは画像データが、取り出される。このデータは、テキスト文字列を取り出すために、必要に応じて、OCRエンジンによって構文解析される。
図5Bに示す例は、第2のページ40bのものであり、第1のページ40aから最初に選択された同じ領域は、「S4.1」というテキストを含む。工程208によれば、この方法は、第1の複製された選択ページコンテンツ66の取り出されたテキスト文字列を、第2のページ40bに関連付けられているページ・ロケーション・インデックス42bに、ユーザ介入なく割り当てることを含む。したがって、異なる各ページ40からの同じ部分からの異なるコンテンツを、ページ・ロケーション・インデックス42として割り当てることができ、たとえば、対応するページ・ラベルまたはブックマークがそのページにリンクされる。
【0029】
それぞれのページ・ロケーション・インデックス42に対する第1のベース選択ページコンテンツ64および第1の複製された選択ページコンテンツ66から取り出されたそれぞれのテキスト文字列の割り当てを完遂する前に、第1の領域58の選択からの取り出されたテキスト文字列のプレビューを提示することができる。
図8を参照すると、ダイアログ・ウィンドウ46から選択ボタン52を起動したことに応答して、例示的なダイアログ・ウィンドウ68を表示することができる。ダイアログ・ウィンドウ68は、ページ・ロケーション・インデックス42に割り当てられるはずのテキスト文字列のプレビュー70を含む。
【0030】
これらの文脈に沿って、ユーザがページ・ロケーション・インデックス42の書式を定義することができることが考えられる。したがって、テキスト入力フィールド74内で書式構造72を指定することが可能である。フィールド・コードとも呼ばれる選択された第
1の領域58に対応するキーワードは、取り囲むブラケット[]で指定することができる。書式構造72によって指定された書式に続いて、プレビュー70、ならびにページ・ロケーション・インデックス42に対するテキスト文字列の任意の割り当てを行うことができる。これは、フィールド・コードを実際の取り出されたテキスト文字列に置き換えることと、テキスト入力フィールド74内に指定される区切り文字を含むすべての他の追加の特注のテキストおよびそれらの配置を保持することとを伴う。
【0031】
テキスト入力フィールド74に示すように、基礎的なコンテンツをページ・ロケーション・インデックス42として割り当てるための第1のページ40aの第1の領域58を選択することが可能である。
図7Bを参照すると、第1のページ40a上の追加の第2の領域76を選択して、同じ手順を繰り返すことも可能である。第1の領域58が選択された後、ダイアログ・ウィンドウ68が再び提示される。追加ボタン77を起動することによって、
図5Aに示すように文書38の表示が戻り、ユーザは、第2のベース選択ページコンテンツ78を含む異なる第2の領域76を選択することができる。第2の領域76は、左上隅80aと、対角線状に対向する右下隅80bとによって画定され、したがって方形の形状である。これらの境界はまた、第1のページ40aに対して画定される。例示的なテキスト「基礎の詳細」を取り囲む第2の領域76は、左上隅80a上にマウス・カーソル62を位置決めし、マウス・ボタンをクリックし、マウス・カーソル62を右下隅80bへドラッグすることによって選択することができる。選択されたコンテンツ、たとえば例示的なテキスト「基礎の詳細」は、前述の第2のベース選択ページコンテンツであると理解される。
【0032】
そのような第2の領域76が選択されたとき、
図8のダイアログ・ウィンドウ68に示すように、書式構造72はまた、取り囲むブラケット[]によって同様に指定された第2の領域76に対する参照を含む。書式構造72は、スペース文字、ダッシュ文字、または第1の領域に対する参照と第2の領域に対する参照とを視覚的に分離する任意の他の適した文字などのフィールド区切り文字をさらに組み込むことができる。
【0033】
基礎的な第2のベース選択ページコンテンツ78のテキスト文字列は、上記に概説した手順によって取り出され、プレビュー70内に示される。第1のページ40a上の所望の領域のすべてが選択された後、複製された選択ページコンテンツを取り出し、それぞれのページ・ロケーション・インデックス42にテキスト文字列を割り当てる前述の手順が、選択された各領域に対して繰り返され、書式構造72によって定義された通り連結される。
図5Bに示すように、第2のページ40bを処理するとき、第2の領域76と同じ相対ロケーションに位置決めされる特定のコンテンツ、すなわち第2の複製された選択ページコンテンツ82が取り出される。すなわち、後続ページ上の同じ領域からのデータが、対応するページ40に対するページ・ロケーション・インデックス42、たとえばブックマークまたはページ・ラベルを生成するために使用される。ページ40の処理は、ダイアログ・ウィンドウ68からの「OK」ボタン84が起動された後に開始される。
【0034】
本明細書に示す細目は、例として本開示の実施形態の例示的な議論のみを目的とし、本開示の原理および概念的な態様に関する最も有用でありかつ容易に理解される説明であると考えられるものを提供するために提示される。この点に関して、本開示の基本的な理解にとって必要とされる以上のさらなる詳細を示す試みはしておらず、図面とともに得られる説明により、本開示の方法のいくつかの形態を実際にはどのように実施することができるかが、当業者には明らかになる。