IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッドの特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-11-30
(45)【発行日】2022-12-08
(54)【発明の名称】タイトル推定器
(51)【国際特許分類】
   G06F 16/335 20190101AFI20221201BHJP
   G06F 16/332 20190101ALI20221201BHJP
   G06F 16/383 20190101ALI20221201BHJP
   G06F 40/253 20200101ALI20221201BHJP
   G06F 40/14 20200101ALI20221201BHJP
   G06F 40/216 20200101ALI20221201BHJP
【FI】
G06F16/335
G06F16/332
G06F16/383
G06F40/253
G06F40/14
G06F40/216
【請求項の数】 21
【外国語出願】
(21)【出願番号】P 2019022865
(22)【出願日】2019-02-12
(65)【公開番号】P2019169137
(43)【公開日】2019-10-03
【審査請求日】2021-09-16
(31)【優先権主張番号】15/897,911
(32)【優先日】2018-02-15
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】507031918
【氏名又は名称】コニカ ミノルタ ラボラトリー ユー.エス.エー.,インコーポレイテッド
(74)【代理人】
【識別番号】110000671
【氏名又は名称】八田国際特許業務法人
(72)【発明者】
【氏名】ダレル ユージン ベラート
【審査官】齊藤 貴孝
(56)【参考文献】
【文献】特開平09-134406(JP,A)
【文献】特開2003-058556(JP,A)
【文献】特開2011-070529(JP,A)
【文献】特開2000-148788(JP,A)
【文献】米国特許出願公開第2012/0278705(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00-16/958
G06F 40/00-40/58
(57)【特許請求の範囲】
【請求項1】
電子文書内のタイトルを推定するために前記電子文書をコンピューターによって処理する方法であって、
前記電子文書は複数の文字を含み、
前記電子文書内の文字の複数のテキストスタイル属性、複数のテキストレイアウト属性、およびテキストコンテンツ情報を含む、前記電子文書のマークアップ版を生成するステップと、ここで、前記複数の文字は、前記複数のテキストレイアウト属性に基づいて少なくとも第1段落と第2段落にグループ化され、前記複数のテキストスタイル属性および前記複数のテキストレイアウト属性のそれぞれは、所定の重みスコアと関連付けられ、
前記複数のテキストスタイル属性および前記複数のテキストレイアウト属性の統計情報を生成するステップと、
前記複数のテキストスタイル属性および前記複数のテキストレイアウト属性のそれぞれについて、前記所定の重みスコアおよび前記統計情報に基づいて相対重みスコアを算出するステップと
前記第1段落と前記第2段落のそれぞれについて、前記統計情報および前記相対重みスコアに基づくスタイル基準スコアおよびレイアウト基準スコアと、前記テキストコンテンツ情報に基づくテキストコンテンツスコアと、前記スタイル基準スコア、前記レイアウト基準スコア、および前記テキストコンテンツスコアに基づくタイトル信頼度スコアとを算出するステップと、
前記電子文書について、前記第1段落および前記第2段落のそれぞれについてのタイトル信頼度スコアを含むメタデータを、前記電子文書内のタイトルを推定する際に使用するために生成するステップと、を有する、方法。
【請求項2】
前記複数のテキストスタイル属性は、OOXMLスタイル名属性、フォントサイズ属性、太字属性、下線属性、フォント名属性、フォントカラー属性、および見出しタグ属性を含むグループから選択され、
前記複数のテキストレイアウト属性は、センタリング属性および空白属性を含むグループから選択され、
前記テキストコンテンツ情報は、前記電子文書内の前記複数の文字の文字数を含む、請求項1に記載の方法。
【請求項3】
前記所定の重みスコアの合計は1である、請求項2に記載の方法。
【請求項4】
前記複数のテキストレイアウト属性のそれぞれについて前記相対重みスコアを算出することは、
前記複数のテキストレイアウト属性のうちの所定のテキストレイアウト属性に対する前記相対重みスコアとして前記所定の重みスコアを設定するステップと、
残りの前記複数のテキストレイアウト属性のそれぞれについて、
前記統計情報に基づいて複数のレイアウトスコア関数を算出するステップと、
前記所定の重みスコアと前記レイアウトスコア関数の最大レイアウトスコア関数とに基づいて前記相対重みスコアを算出するステップと、を有する、請求項1~3のいずれか1項に記載の方法。
【請求項5】
前記複数のテキストスタイル属性のそれぞれについて前記相対重みスコアを算出することは、
前記複数のテキストスタイル属性のそれぞれついて、前記統計情報に基づいて可変性を決定するステップと、
前記複数のテキストスタイル属性の、テキストスタイル属性の可変性が1であると決定したことに応じて、前記テキストスタイル属性の相対重みスコアをゼロに設定するステップと、
前記テキストスタイル属性の可変性が1よりも大きいと判断したことに応じて、前記所定の重みスコアに基づいて前記テキストスタイル属性の前記相対重みスコアを算出する、請求項4に記載の方法。
【請求項6】
前記相対重みスコアの合計が1に等しくないことに応じて、前記相対重みスコアが合計1になるようにスケーリングされる、請求項5に記載の方法。
【請求項7】
前記第1段落について前記スタイル基準スコアを計算することは、前記複数のテキストスタイル属性のそれぞれについて、固有性スコアおよび前記相対重みスコアに基づいて最終スタイルスコアを計算するステップ、を有し、
前記スタイル基準スコアは、複数のテキストスタイル属性のそれぞれについての最終スタイルスコアの合計である、請求項1~6のいずれか1項に記載の方法。
【請求項8】
前記複数のテキストスタイル属性のうち、テキストスタイル属性の前記固有性スコアは、前記テキストスタイル属性の配分率およびまばら性スコアに基づき、
前記配分率は、前記第1段落の前記テキストスタイル属性が変化した文字数と前記第1段落の合計文字数の比率であり、
前記まばら性スコアは、前記テキストスタイル属性のバリエーションのある前記第1段落の文字数と前記電子文書の文字数の合計と補足比(complement ratio)である、請求項7に記載の方法。
【請求項9】
前記第1段落の前記レイアウト基準スコアを算出することは、前記複数のテキストレイアウト属性のそれぞれについて、前記統計情報に基づく複数のレイアウトスコア関数と、前記相対重みスコアおよび前記レイアウトスコア関数に基づく最終レイアウトスコアと、算出するステップを、有し、
前記レイアウト基準スコアは、前記複数のテキストレイアウト属性のそれぞれに対する前記最終レイアウトスコアの合計である、請求項1~8のいずれか1項に記載の方法。
【請求項10】
前記電子文書は、第2電子文書を含む電子文書の集合内の第1電子文書であり、前記第2電子文書は、第3段落および第4段落と、第3段落および第4段落のタイトル信頼度スコアを含むメタデータと、を含み、
前記第1段落および前記第3段落は、前記電子文書の集合内のタイトルを推定する要求において指定された所定の検索語を含み、
前記第1段落のタイトル信頼度スコアが前記第3段落のタイトル信頼度スコアよりも大きいことに応じて、前記第1電子文書は、前記第2電子文書の前にディスプレイに表示される、請求項1~9のいずれか1項に記載の方法。
【請求項11】
電子文書を処理し、前記電子文書内に埋め込まれたタイトルを推定するためのコンピュータープログラムであって、
前記電子文書は複数の文字を含み、
前記電子文書内の複数のテキストスタイル属性、複数のテキストレイアウト属性、および文字のテキストコンテンツ情報を含む、前記電子文書のマークアップ版を生成することと、ここで、前記複数の文字は、前記複数のテキストレイアウト属性に基づいて少なくとも第1段落と第2段落とにグループ化され、前記複数のテキストスタイル属性および前記複数のテキストレイアウト属性のそれぞれは、所定の重みスコアと関連付けられ、
前記複数のテキストスタイル属性と前記複数のテキストレイアウト属性の統計情報を生成することと、
前記複数のテキストスタイル属性および前記複数のテキストレイアウト属性のそれぞれについて、前記所定の重みスコアおよび前記統計情報に基づいて相対重みスコアを算出することと、
前記第1段落と前記第2段落のそれぞれについて、
前記統計情報および前記相対重みスコアに基づくスタイル基準スコアおよびレイアウト基準スコアと、前記テキストコンテンツ情報に基づくテキストコンテンツスコアと、前記スタイル基準スコア、前記レイアウト基準スコア、および前記テキストコンテンツスコアに基づくタイトル信頼度スコアと、を算出することと、
前記電子文書について、前記第1段落および前記第2段落のそれぞれについてのタイトル信頼度スコアを含むメタデータを、前記電子文書内のタイトルを推定する際に使用するために生成することと、をコンピューターに実行させるためのコンピュータープログラム。
【請求項12】
前記複数のテキストスタイル属性は、OOXMLスタイル名属性、フォントサイズ属性、太字属性、下線属性、フォント名属性、フォントカラー属性、および見出しタグ属性を含む群から選択され、
前記複数のテキストレイアウト属性は、センタリング属性および空白属性を含む群から選択され、
前記テキストコンテンツ情報は、前記電子文書内の前記複数の文字の文字数を含む、請求項11に記載のコンピュータープログラム。
【請求項13】
前記複数のテキストレイアウト属性のそれぞれについて前記相対重みスコアを算出することは、
前記複数のテキストレイアウト属性のうち、所定のテキストレイアウト属性に対する前記相対重みスコアとして前記所定の重みスコアを設定することと、
残りの前記複数のテキストレイアウト属性のそれぞれについて、前記統計情報に基づいて複数のレイアウトスコア関数を算出すること、
前記所定の重みスコアと前記レイアウトスコア関数の最大レイアウトスコア関数とに基づいて前記相対重みスコアを算出することと、を含む、請求項11または12に記載のコンピュータープログラム。
【請求項14】
前記複数のテキストスタイル属性のそれぞれについて前記相対重みスコアを算出することは、
前記複数のテキストスタイル属性のそれぞれについて、前記統計情報に基づいて可変性を決定することと、
前記複数のテキストスタイル属性の、テキストスタイル属性の可変性が1であると決定したことに応じて、前記テキストスタイル属性の前記相対重みスコアをゼロに設定することと、
前記テキストスタイル属性の可変性が1より大きいと判断したことに応じて、前記所定の重みスコアに基づいて前記テキストスタイル属性の前記相対重みスコアを算出することと、を含む、請求項13に記載のコンピュータープログラム。
【請求項15】
前記電子文書は、第2電子文書を含む電子文書の集合内の第1電子文書であり、前記第2電子文書は、第3段落および第4段落と、第3段落および第4段落のタイトル信頼度スコアを含むメタデータと、を含み、
前記第1段落および前記第3段落は、前記電子文書の集合内のタイトルを推定する要求において指定された所定の検索語を含み、
前記第1段落のタイトル信頼度スコアが前記第3段落のタイトル信頼度スコアよりも大きいことに応じて、前記第1電子文書は、前記第2電子文書の前にディスプレイに表示される、請求項11~14のいずれか1項に記載のコンピュータープログラム。
【請求項16】
電子文書内のタイトルを推定するために電子文書を処理するためのシステムであって、
前記電子文書は、複数の文字を含み、
前記システムは、メモリーと、
前記メモリーに接続されるコンピュータープロセッサーと、を含み、
前記コンピュータープロセッサーは、
前記電子文書内の文字の複数のテキストスタイル属性、複数のテキストレイアウト属性、およびテキストコンテンツ情報を含むマークアップ版の電子文書を生成し、
前記複数の文字は、前記複数のテキストレイアウト属性に基づいて少なくとも第1段落と第2段落にグループ化され、前記複数のテキストスタイル属性および前記複数のテキストレイアウト属性のそれぞれは、所定の重みスコアと関連付けられ、
前記複数のテキストスタイル属性と前記複数のテキストレイアウト属性の統計情報を生成し、
前記複数のテキストスタイル属性および前記複数のテキストレイアウト属性のそれぞれについて、前記所定の重みスコアおよび前記統計情報に基づいて相対重みスコアを算出し、
前記第1段落と前記第2段落のそれぞれについて、前記統計情報および前記相対重みスコアに基づくスタイル基準スコアおよびレイアウト基準スコアと、前記テキストコンテンツ情報に基づくテキストコンテンツスコアと、前記スタイル基準スコア、前記レイアウト基準スコア、および前記テキストコンテンツスコアに基づくタイトル信頼度スコアと、を算出し、
前記電子文書について、前記第1段落および前記第2段落のそれぞれについての前記タイトル信頼度スコアを含むメタデータを、前記電子文書内のタイトルを推定する際に使用するために生成する、システム。
【請求項17】
前記複数のテキストスタイル属性は、OOXMLスタイル名属性、フォントサイズ属性、太字属性、下線属性、フォント名属性、フォントカラー属性、および見出しタグ属性を含む群から選択され、
前記複数のテキストレイアウト属性は、センタリング属性および空白属性を含む群から選択され、
前記テキストコンテンツ情報は、前記電子文書内の複数の文字の文字数を含む、請求項16に記載のシステム。
【請求項18】
前記複数のテキストレイアウト属性のそれぞれについて前記相対重みスコアを算出することは、
前記複数のテキストレイアウト属性のうち、所定のテキストレイアウト属性に対する相対重みスコアとして前記所定の重みスコアを設定することと、
残りの前記複数のテキストレイアウト属性のそれぞれについて、前記統計情報に基づいて複数のレイアウトスコア関数を算出すること、
前記所定の重みスコアと前記レイアウトスコア関数の最大レイアウトスコア関数とに基づいて相対重みスコアを算出することと、を含む、請求項16または17に記載のシステム。
【請求項19】
前記複数のテキストスタイル属性のそれぞれについて前記相対重みスコアを算出することは、
前記複数のテキストスタイル属性について、前記統計情報に基づいて可変性を決定し、
前記複数のテキストスタイル属性の、テキストスタイル属性の可変性が1であると決定したことに応じて、前記テキストスタイル属性の前記相対重みスコアをゼロに設定し、
前記テキストスタイル属性の可変性が1より大きいと判断したことに応じて、前記所定の重みスコアに基づいて前記テキストスタイル属性の前記相対重みスコアを算出すること、を含む、請求項16~18のいずれか1項に記載のシステム。
【請求項20】
前記電子文書は、第2電子文書を含む電子文書の集合内の第1電子文書であり、前記第2電子文書は、第3段落および第4段落と、第3段落および第4段落のタイトル信頼度スコアを含むメタデータと、を含み、
前記第1段落および前記第3段落は、前記電子文書の集合内のタイトルを推定する要求において指定された所定の検索語を含み、
前記第1段落のタイトル信頼度スコアが前記第3段落のタイトル信頼度スコアよりも大きいことに応じて、前記第1電子文書は、前記第2電子文書の前にディスプレイに表示される、請求項16~19のいずれか1項に記載のシステム。
【請求項21】
請求項11~15のいずれか1項に記載のコンピュータープログラムを格納したコンピューター読取可能な記録媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、タイトル推定器に関する。
【背景技術】
【0002】
背景
電子文書(ED)(たとえば、ワードプロセッシング文書、スプレッドシート、スライドショー、ウェブページなど)は、ED内の内容を最もよく説明しているタイトル(たとえば、名前、見出し、説明文、ラベル、キャプションなど)を含みうる。多くの場合、タイトル内のテキストはユーザーにとって思い出しやすいものである。
【発明の概要】
【発明が解決しようとする課題】
【0003】
しかしながら、タイトルは、ED内で必ずしも明示的に識別される(すなわち、ラベル付けおよび/またはタグ付けされる)とは限らない。それにも関わらず、ユーザーはそれでもEDのタイトルを捜すことを望む。
【課題を解決するための手段】
【0004】
概要
概して、一態様では、本発明は、電子文書(ED)を処理してED内のタイトルを推定する方法に関する。ここで、EDは複数の文字を含む。この方法は、ED内の文字のテキストスタイル属性、テキストレイアウト属性、およびテキストコンテンツ情報を含む、EDのマークアップ版を生成することと、ここで、文字は、テキストレイアウト属性に基づいて、少なくとも第1段落および第2段落にグループ化され、テキストスタイル属性およびテキストレイアウト属性のそれぞれは、所定の重みスコアと関連付けられ、テキストスタイル属性およびテキストレイアウト属性の統計情報を生成することと、テキストスタイル属性およびテキストレイアウト属性のそれぞれについて、所定の重みスコアおよび統計情報に基づいて相対重みスコアを算出することと、第1段落および第2段落のそれぞれについて、統計情報および相対重みスコアに基づいてスタイル基準スコアおよびレイアウト基準スコアと、テキストコンテンツ情報に基づくテキストコンテンツスコアと、スタイル基準スコア、レイアウト基準スコア、およびテキストコンテンツスコアに基づくタイトル信頼度スコアと、を算出することと、EDについて、そのED内のタイトルを推定する際に使用するための、第1段落および第2段落のそれぞれについてのタイトル信頼度スコアを含むメタデータを生成することと、を含む。
【0005】
概して、一態様では、本発明は、電子文書(ED)を処理してED内のタイトルを推定するためのシステムに関する。ここで、EDは複数の文字を含む。このシステムは、ED内の文字のテキストスタイル属性、テキストレイアウト属性、およびテキストコンテンツ情報を含むマークアップ版のEDを生成する。ここで、文字は、テキストレイアウト属性に基づいて、少なくとも第1段落および第2段落にグループ化され、テキストスタイル属性およびテキストレイアウト属性のそれぞれは、所定の重みスコアと関連付けられる。テキストスタイル属性とテキストレイアウト属性の統計情報を生成する。テキストスタイル属性およびテキストレイアウト属性のそれぞれについて、所定の重みスコアおよび統計情報に基づいて相対重みスコアを計算する。第1段落および第2段落のそれぞれについて、統計情報および相対重みスコアに基づいてスタイル基準スコアおよびレイアウト基準スコアを計算する。テキストコンテンツ情報に基づくテキストコンテンツスコアと、スタイル基準スコア、レイアウト基準スコア、およびテキストコンテンツスコアに基づくタイトル信頼度スコアと、を算出する。EDについて、そのED内のタイトルを推定する際に使用するための、第1段落および第2段落のそれぞれについてのタイトル信頼度スコアを含むメタデータを生成する。
【0006】
概して、一態様では、本発明は、電子文書(ED)を処理し、ED内に埋め込まれたタイトルを推定するためのコンピュータープログラムである。EDは複数の文字を含む。コンピュータープログラムは、ED内の文字のテキストスタイル属性、テキストレイアウト属性、および文字のテキストコンテンツ情報を含む、EDのマークアップ版を生成することと、ここで、文字は、テキストレイアウト属性に基づいて少なくとも第1段落と第2段落とにグループ化され、テキストスタイル属性および前記テキストレイアウト属性のそれぞれは、所定の重みスコアと関連付けられ、テキストスタイル属性とテキストレイアウト属性の統計情報を生成することと、テキストスタイル属性およびテキストレイアウト属性のそれぞれについて、所定の重みスコアおよび前記統計情報に基づいて相対重みスコアを算出することと、第1段落と第2段落のそれぞれについて、統計情報および相対重みスコアに基づくスタイル基準スコアおよびレイアウト基準スコアと、テキストコンテンツ情報に基づくテキストコンテンツスコアと、スタイル基準スコア、レイアウト基準スコア、およびテキストコンテンツスコアに基づくタイトル信頼度スコアと、を算出することと、電子文書について、第1段落および第2段落のそれぞれについてのタイトル信頼度スコアを含むメタデータを、電子文書内のタイトルを推定する際に使用するために生成することと、をコンピューターに実行させる。
【図面の簡単な説明】
【0007】
本発明の他の態様は、以下の説明および添付の特許請求の範囲から明らかとなろう。
図1図1は、本発明の1つ以上の実施形態によるシステムを示す。
図2図2は、本発明の1つ以上の実施形態によるフローチャートを示す。
図3A図3Aは、発明の1つ以上の実施形態による実装例を示す図である。
図3B図3Bは、発明の1つ以上の実施形態による実装例を示す図である。
図3C図3Cは、発明の1つ以上の実施形態による実装例を示す図である。
図3D図3Dは、発明の1つ以上の実施形態による実装例を示す図である。
図3E図3Eは、発明の1つ以上の実施形態による実装例を示す図である。
図3F図3Fは、発明の1つ以上の実施形態による実装例を示す図である。
図3G図3Gは、発明の1つ以上の実施形態による実装例を示す図である。
図3H図3Hは、発明の1つ以上の実施形態による実装例を示す図である。
図3I図3Iは、発明の1つ以上の実施形態による実装例を示す図である。
図3J図3Jは、発明の1つ以上の実施形態による実装例を示す図である。
図3K図3Kは、発明の1つ以上の実施形態による実装例を示す図である。
図4図4は、本発明の1つ以上の実施形態による計算システムを示す。
【発明を実施するための形態】
【0008】
概要
概して、一態様では、本発明は、電子文書(ED)をコンピューターによって処理してED内のタイトルを推定する方法に関する。ここで、EDは複数の文字を含む。この方法は、ED内の文字のテキストスタイル属性、テキストレイアウト属性、およびテキストコンテンツ情報を含む、EDのマークアップ版を生成することと、ここで、文字は、テキストレイアウト属性に基づいて、少なくとも第1段落および第2段落にグループ化され、テキストスタイル属性およびテキストレイアウト属性のそれぞれは、所定の重みスコアと関連付けられ、テキストスタイル属性およびテキストレイアウト属性の統計情報を生成することと、テキストスタイル属性およびテキストレイアウト属性のそれぞれについて、所定の重みスコアおよび統計情報に基づいて相対重みスコアを算出することと、第1段落および第2段落のそれぞれについて、統計情報および相対重みスコアに基づいてスタイル基準スコアおよびレイアウト基準スコアと、テキストコンテンツ情報に基づくテキストコンテンツスコアと、スタイル基準スコア、レイアウト基準スコア、およびテキストコンテンツスコアに基づくタイトル信頼度スコアと、を算出することと、EDについて、そのED内のタイトルを推定する際に使用するための、第1段落および第2段落のそれぞれについてのタイトル信頼度スコアを含むメタデータを生成することと、を含む。
【0009】
本発明の実施形態の以下の詳細な説明では、本発明のより完全な理解を提供するために多数の具体的な詳細が述べられている。しかしながら、本発明がこれらの具体的な詳細なしで実施されてもよいことは当業者に明らかであろう。他の例では、説明を不必要に複雑にすることを避けるために、よく知られた特徴は詳細に説明されていない。
【0010】
一般に、本発明の実施形態は、ED内でタイトル(たとえば、名前、見出し、説明、ラベル、キャプションなど)を推定(infer)するために電子文書(ED)を処理する方法、コンピュータープログラム、およびシステムを提供する。具体的には、1行または複数行のテキストを含む電子文書(ED)が取得され、EDの構文解析によってEDのマークアップ(校正)版が生成される。EDのマークアップ版には、テキストの行を構成する文字の内容、レイアウト、およびスタイル情報が含まれている。マークアップ版のEDに対して1つ以上のプロセスが実行され、テキストの行が段落にグループ化され、各段落のタイトル信頼度スコアが算出される。各段落についてのタイトル信頼度スコアが算出されると、たとえタイトルが明確に識別(すなわち、ラベル付けおよび/またはタグ付け)されていなくても、EDのタイトルを推定できる。
【0011】
図1は、本発明の1つまたは複数の実施形態によるシステム(100)を示す。図1に示すように、システム(100)は、たとえば、バッファー(104)、解析エンジン(108)、およびタイトルエンジン(110)を含む複数の構成要素を有する。これらの構成要素(104,108,110)のそれぞれは、同じ計算装置(たとえば、パーソナルコンピューター(PC)、ノート型パソコン、タブレットPC、スマートフォン、多機能プリンター、自動券売機(kiosk)、サーバーなど)または、有線および/または無線セグメントを有する任意のサイズのネットワークによって接続された異なる計算装置上に配置できる。これらの構成要素のそれぞれについて以下に説明する。
【0012】
本発明の1つ以上の実施形態では、バッファー(104)は、ハードウェア(すなわち回路)、ソフトウェア、またはそれらの任意の組み合わせで実装できる。バッファー(104)は、文字からなる1行以上のテキストを含む電子文書(ED)(106)を格納するように構成される。ED(106)は画像およびグラフィックも含むことができる。ED(106)は、任意の供給源から入手できる(たとえば、ダウンロード、スキャンなど)。ED(106)は、EDの集合の一部であり得る。さらに、ED(106)は、任意のサイズおよび任意のフォーマット(たとえば、PDF、OOXML、ODF、HTMLなど)であり得る。
【0013】
本発明の1つ以上の実施形態では、構文解析エンジン(108)は、ハードウェア(すなわち回路)、ソフトウェア、またはそれらの任意の組み合わせで実装できる。解析エンジン(108)は、ED(106)を解析して、ED内の文字の内容(コンテンツ)、レイアウト、およびスタイル情報を抽出し、抽出した情報に基づいてED(107)のマークアップ版を生成する。マークアップ版のED(107)はバッファー(104)に格納されてもよい。
【0014】
本発明の1つ以上の実施形態では、スタイル情報は、ED(106)内の各文字のスタイルの詳細を識別する1つ以上のテキストスタイル属性を含みうる。たとえば、テキストスタイル属性には、OOXMLのスタイル名属性、HTMLの見出しタグ、フォントサイズ属性、太字(ボールド)属性、下線属性、フォント名属性、フォントカラー属性などが含まれる。図3Bおよび図3Cを参照して、以下でより詳細に例示する。
【0015】
本発明の1つ以上の実施形態では、レイアウト情報は、コンテンツ境界ボックス情報(content bounding box information)(たとえば、ED(106)の単一ページ上の全コンテンツの境界ボックスおよび各テキスト行の境界ボックス)および行間隔情報を含むことができる。レイアウト情報は、テキストの各行の基礎となる構造を特定する1つ以上のテキストレイアウト属性を決定および/または算出するために使用されうる。たとえば、レイアウト情報は、センタリング属性、空白属性(white space attribute)などのような属性を含むことができる。これは、図3Bおよび図3F図3Hを参照して、以下でより詳細に例示する。
【0016】
本発明の1つ以上の実施形態では、構文解析エンジン(108)は、テキストレイアウト属性を使用してED(106)内の1つ以上の段落を特定する。1つ以上の実施形態では、電子文書(106)内の段落は、一行のテキストのみを含む場合もある。また、段落は必ずしもインデントで始まるとは限らない。
【0017】
本発明の1つ以上の実施形態では、テキストコンテンツ情報は、ED(106)の単一および/またはすべての段落における文字数(「文字数」)を含むことができる。たとえば、段落は、たとえば空白によって、テキスト行の1つまたは複数のグループから分離されたテキストの1つまたは複数の行のグループである場合がある。これは、図3Aを参照して、以下でより詳細に例示される。
【0018】
本発明の1つ以上の実施形態では、タイトルエンジン(110)は、ハードウェア(すなわち回路)、ソフトウェア、またはそれらの任意の組み合わせで実装できる。タイトルエンジン(110)は、ED(106)内の各段落についてのタイトル信頼度スコアを算出し、各段落のタイトル信頼度スコアに基づいてED(106)内の可能性のあるタイトルを特定(すなわち推定)するように構成される。1つ以上の実施形態では、ED(106)はタイトルを含まなくてもよく、または複数のタイトル(すなわち、一致する最高のタイトル信頼度スコアを有する潜在的に複数の段落)を有してもよい。
【0019】
本発明の1つ以上の実施形態では、タイトルエンジン(110)は、テキストスタイル属性およびテキストレイアウト属性についての一集合の所定の重みスコアを取り出す。それぞれのテキストスタイル属性およびテキストレイアウト属性は、上記集合内の所定の重みスコアに関連付けられている(すなわち、結び付けられている)。所定の重みスコアは、どのテキストスタイル属性およびテキストレイアウト属性がタイトルの優先順位を示す可能性が最も高いか(すなわち、EDで見つかったタイトルのうち、どのテキストスタイル属性およびテキストレイアウト属性が最も共通に関連付けられているか)に関するユーザーの考慮に基づいてユーザーによって決定される。たとえば、タイトルには固有のフォントカラーではなく太字が含まれる可能性が高いことをユーザーが認識しているとする。太字属性に対する所定の重みスコアは、フォントカラー属性に対する所定の重みスコアよりも大きいであろう。別の例として、タイトルが、太字を含むよりも中央に配置される可能性が高いことをユーザーが認識しているとする。センタリング属性に対する所定の重みスコアは、太字属性に対する所定の重みスコアよりも大きいであろう。これは、図3Dを参照して、以下でより詳細に例示される。
【0020】
本発明の1つ以上の実施形態では、上記一集合の所定の重みスコアは、バッファー(108)に格納されてもよく、ユーザーによっていつでも決定、アクセスおよび/または修正されてもよい。所定の重みスコアは、たとえば、EDに関連付けられた構成ファイルおよび/またはEDに格納されているデフォルト・パラメーターによって事前に定義することもできる。1つ以上の実施形態では、所定の重みスコアの合計は1に設定される。あるいは、所定の重みスコアの合計は任意の定数(たとえば、10、100、0.1、5など)に設定されうる。
【0021】
本発明の1つ以上の実施形態では、タイトルエンジン(110)は、マークアップ版のED(107)内の各テキストスタイル属性およびテキストレイアウト属性を特定し、各テキストスタイル属性およびテキストレイアウト属性に関する統計情報を生成する。
【0022】
本発明の1つ以上の実施形態では、各テキストスタイル属性の統計情報は、各テキストスタイル属性の可変性(variability)および頻度を含むことができる。テキストスタイル属性の可変性は、特定されたテキストスタイル属性のいくつかのバリエーションに基づいて決定できる。たとえば、フォントサイズが11、14、および16の文字がED(106)で特定される(つまり、フォントサイズの3つのバリエーションが特定される)場合、フォントサイズ属性の可変性は3になる。他の例として、ED(106)に太字の文字があるとする。太字の属性の可変性は2となる(たとえば、太字の文字については真、太字ではない文字については偽)。テキストスタイル属性の頻度は、テキストスタイル属性の各バリエーションを有する文字の濃度に基づいて決定できる。たとえば、ED(106)が合計745文字を有し、745文字のうちの29文字が16のフォントサイズを有すると仮定する。16のフォントサイズ属性の頻度は29である。これは、図3Eを参照して、以下で詳細に例示される。
【0023】
本発明の1つ以上の実施形態では、各テキストレイアウト属性の統計情報は、ED(106)の単一ページ上の全コンテンツの境界ボックスの1つまたは複数の値(すなわち、ED(106)の単一ページ上の全コンテンツの右、左、上、および下の境界を記述する値)を含みうる。各テキストレイアウト属性の統計情報には、各段落に関連付けられている空白の量も含まれる場合がある。これには、垂直方向の空白(つまり、テキスト行または文書または境界ボックスの端の間の空白)と、水平方向の空白(つまり、テキスト行の最初と最後の文字の間の空白、およびページ上の全コンテンツの境界ボックスの左右の境界線の間の空白)と、の量が含まれる。水平方向の空白は、先頭の空白(つまり、テキスト行の最初の文字とページ上の全コンテンツの境界ボックスの左端との間の空白)と、末尾の空白(つまり、テキスト行の最後の文字と、ページ上の全コンテンツの境界ボックスの右端との間の空白)と、に分割されうる。これは、図3A図3F~3Hを参照して、以下に詳細に例示される。
【0024】
本発明の1つ以上の実施形態では、タイトルエンジン(110)は、テキストスタイル属性およびテキストレイアウト属性の統計情報に基づいて、テキストスタイル属性およびテキストレイアウト属性のそれぞれについての所定の重みスコアを相対重みスコア(relative weight score)に調整する。調整は、相対重みスコアをユーザー定義の値に設定すること、または所定の重みスコアと、テキストスタイル属性およびテキストレイアウト属性の統計情報とを使用して相対重みスコアを算出することによって実施できる。1つ以上の実施形態では、所定の重みスコアは、上記統計情報によって反映されるように、いくつかのテキストスタイル属性およびテキストレイアウト属性がED(106)内のタイトルの推定にとって関心を引かない(すなわち関連性がない)ことを考慮して調整される。
【0025】
たとえば、ED(106)がPDF文書であると仮定する。PDF文書は、OOXML文書に含まれるスタイル名属性を含まない。したがって、スタイル名属性の現在のフォーマット(すなわちPDF)にスタイル名属性が関連しないことを反映するように、スタイル名属性の所定の重みスコアが下げられる(すなわち調整される)。別の例として、1つ以上の実施形態では、1の可変性を有する(すなわち、それらは変動しない)すべてのテキストスタイル属性の所定の重みスコアを0の相対重みスコアに設定できる。センタリング属性については、相対重みスコアは、所定の重みスコアを、ED(106)内の段落を最良のセンタリング(すなわち、ED(106)内の最も中央に配置された段落)を反映するセンタリングスコア(下記に例示)でスケーリングすることによって算出できる。また、空白属性については、すべての文書に空白が含まれるため、相対重みスコアを所定の重みスコアと同じに設定する。これは、図3Iを参照して、以下で詳細に例示される。
【0026】
所定の重みスコアを調整する方法は、上述の例に限定されない。1つ以上の実施形態では、統計情報に基づくED(106)内の各テキストスタイル属性およびテキストレイアウト属性の関連性を考慮に入れる他の方法を使用して、所定の重みスコアを調整できる。
【0027】
本発明の1つ以上の実施形態では、相対重みスコアの合計が1に等しくない場合、タイトルエンジン(110)は、相対重みスコアの合計が1になるように相対重みスコアをスケーリングする。これは、図3Iを参照して、以下に詳細に例示される。あるいは、相対重みスコアの合計が、所定の重みスコアの合計に対して設定された定数(たとえば、10、100、0.1、5など)と等しくない場合、タイトルエンジン(110)は、相対重みスコアの合計が設定された定数と等しくなるように、相対重みスコアをスケーリングする。
【0028】
本発明の1つ以上の実施形態では、タイトルエンジン(110)は、ED(106)内の各段落についてセンタリングスコアを算出する。段落のセンタリングスコアは、段落がED内でセンタリングされる(すなわち、段落の行がセンタリングされる)程度を特定する。センタリングスコアは、0がセンタリングなし、1が高度のセンタリング度で、0から1の間の値として算出できる。一般的に、タイトルは中央に配置されることが知られている。したがって、中央揃えされた段落は、ED(106)のタイトルである可能性が高い。1つ以上の実施形態では、センタリングスコア(「centering_score」)は、テキストの各行の末尾の空白(「trailing_white_space」)および先頭の空白(「leading_white_space」)に基づいて、次のように算出される。
centering_score = 1 - (leading_white_space - trailing_white_space) ÷ (leading_white_space + trailing_white_space)
【0029】
1つ以上の実施形態では、センタリング属性の相対重みスコアを算出するために使用されるセンタリングスコアは、ED(106)内の各段落について算出された最大センタリングスコアでありうる。
【0030】
センタリングスコアの算出方法は、上記の例に限定されない。1つ以上の実施形態では、テキストレイアウト属性の統計情報およびED(106)のレイアウト情報を考慮に入れる他の方法を使用してセンタリングスコアを算出できる。
【0031】
本発明の1つ以上の実施形態では、タイトルエンジン(110)は、ED(106)の各段落について空白スコア(white space score)を算出する。段落の空白スコアは、段落を囲む空白の量(すなわち、その段落を囲む水平方向および垂直方向の空白の量)に基づいて算出される。高い空白スコアは、段落がオフセットされる可能性が最も高いことを示し、これは一般にタイトルの既知のレイアウトに関連する(すなわち、タイトルはEDの本体内でオフセットされることが知られている)。空白スコアは、0から1の間の値で、0が最低スコア、1が最高スコアである。1つ以上の実施形態では、テキスト行の空白スコア(「white_space_score」)は、次のように算出できる。
white_space_score = horiz_white_space_score × vert_white_space_score
【0032】
水平空白スコア(horiz_white_space_score)は、次のように算出できる。
horiz_white_space_score = min_max_width ÷ content_bounding_box_width
【0033】
段落のmin_max_widthは、段落におけるテキストの各行の最大水平方向空白を含む集合の最小値である。1行のテキストしかない段落の場合、min_max_widthは最大水平方向空白である。たとえば、段落に3行のテキストが含まれ、3行のそれぞれの最大水平方向空白を含む集合がX={0.01、0.01、および4.87}であるとする。集合Xの最小値0.01は、その段落のmin_max_widthである。content_bouding_box_widthは、段落を含むEDのページのコンテンツ境界ボックスの幅である。たとえば、段落がEDの1ページ目にあり、EDの1ページ目に左境界が0.99、右境界が7.45のコンテンツ境界ボックスがあるとする。content_boudning_box_widthは6.46(すなわち7.45-0.99)に設定される。
【0034】
1つ以上の実施形態では、垂直空白スコア(vert_white_space_score)は、段落の最大垂直空白(「max_vert_white_space」)を見つけ、最大垂直空白を最小閾値(「min_threshold」)および最大閾値(「max_threshold」)と比較することによって算出できる。最大垂直空白が最大閾値より大きい場合、垂直空白スコアは1に設定される。最大垂直空白スコアが最小閾値より小さい場合、垂直空白スコアは0に設定される。最大垂直空白が最大閾値と最小閾値の間にある場合、垂直空白スコアは、((max_vert_white_space - min_threshold) ÷ (max_threshold - min_threshold))として算出できる。最大閾値は、1.5×統計情報で算出されたED(106)の平均行間隔に設定され、最小閾値は、平均行間隔の0.5に設定されてもよい。たとえば、ED(106)の平均行間隔が0.1であると仮定すると、最大閾値は0.15となり、最小閾値は0.05となる。
【0035】
空白スコアの算出方法は、上記の例に限定されない。1つ以上の実施形態では、テキストレイアウト属性の統計情報およびED(106)のレイアウト情報を考慮に入れる他の方法を使用して空白スコアを算出できる。
【0036】
本発明の1つ以上の実施形態では、タイトルエンジン(110)は、ED(106)の各段落についてスタイル基準スコアを算出する。スタイル基準スコアは、段落内の文字のスタイルが、一般にタイトルに関連する1つまたは複数のスタイル(すなわち、既知のタイトルスタイル)にどれだけ一致するかを表す0から1の間の値でありうる。0は、タイトルスタイルである可能性が低く、1はタイトルスタイルである可能性が非常に高い。スタイル基準スコアは、各テキストスタイル属性の最終スタイルスコアの合計として算出できる。テキストスタイル属性の最終スタイルスコアは、テキストスタイル属性のスコア関数(すなわち、スタイルスコア関数)およびテキストスタイル属性の相対重みスコアに基づいて算出される。
【0037】
本発明の1つ以上の実施形態では、テキストスタイル属性のスコア関数を算出するために、タイトルエンジン(110)は、テキストスタイル属性の固有性スコア(uniqueness score)および/または望ましさスコア(desirability score)を算出できる。本発明の1つ以上の実施形態では、固有性スコアは、テキストスタイル属性のバリエーションがED(106)内で一意(すなわち、特殊/希少)であることを反映している。テキストスタイル属性の固有性スコア(「uniqueness_score」)は、段落ごとに次のように算出できる。
uniqueness_score = distribution_ratio × sparsity_score
【0038】
1つ以上の実施形態では、distribution_ratio(配分率)は、テキストスタイル属性の最も一般的なバリエーションが段落内に出現する頻度を反映する。たとえば、EDの段落Aが合計29文字を含み、29文字のうち29文字が太字である(すなわち、太字属性のバリエーション真)と仮定する。段落Aの太字の属性の配分比は、(29÷29)の結果として1になる。
【0039】
1つ以上の実施形態では、sparsity_score(まばら性スコア)は、テキストスタイル属性のバリエーションがED(106)内にどれほどまれにあるかを反映する。
sparsity_score = 1 - (num_char_variation ÷ total_char_ED)
【0040】
たとえば、上記と同じ条件を仮定し、さらにED(106)が745の総文字数(「total_char_ED」)を有し、745文字のうちの38が太字である(すなわち、太字属性のバリエーション真)と仮定する。太字属性のスパース性スコアは、1-(38÷745)の結果、0.95である。さらに、(1×0.95)の結果として、段落Aの太字属性の固有性スコアは0.95である。
【0041】
本発明の1つ以上の実施形態では、望ましさスコアは、テキストスタイル属性のバリエーションが一意であるだけでなく、ED(106)のスタイル属性におけるテキストの最も一般的なバリエーションよりもタイトルに見られるスタイルに関連付けられる可能性が高いことを反映している。たとえば、ED(106)に11、14、および16のフォントサイズの文字が含まれているとする。11のフォントサイズがフォント属性の最も一般的なバリエーションである。16のフォントサイズは最大のフォントサイズであり、タイトル内のテキストは一般的に大きいことが知られているため、タイトルのフォントサイズである可能性が高くなる。フォント属性の望ましさスコアは、フォントサイズ16(すなわち、desired_variation)に基づいて算出できる。各フォントサイズにも数値が割り当てられている。たとえば、フォントサイズ11に11の値を割り当て、フォントサイズ16に16の値を割り当てることができる。
【0042】
本発明の1つ以上の実施形態では、テキストスタイル属性の望ましさスコア(「desiability_score」)は、各段落について、以下のように算出できる。
desirability_score=(most_com_var_para - most_com_var_ED) ÷ (desired_variation - most_com_var_ED)
【0043】
たとえば、文書のフォントサイズが11、14、16である、上記と同じ条件で、フォントサイズ16が望ましさのバリエーションとして選択されると仮定する。ED(106)の最も一般的なフォントサイズ(「most_com_var_ED」)は11で、段落Bの最も一般的なバリエーション(「most_com_var_para」)は16のフォントサイズである。段落Bのフォント属性の望ましさスコアは(16-11)÷(16-11)=1のように算出される。
【0044】
本発明の1つ以上の実施形態では、テキストスタイル属性のスコア関数は、各段落について、以下のように算出できる。
scoring_function = uniqueness_score
【0045】
本発明の1つ以上の実施形態では、望ましさスコアがテキストスタイル属性について算出されるとき、テキストスタイル属性に関するスコア関数は、各段落について、以下のように算出されてもよい。
scoring_function = uniqueness_score × desirability_score
【0046】
本発明の1つ以上の実施形態では、タイトルエンジン(110)は、ED(106)の各段落についてレイアウト基準スコアを算出する。レイアウト基準スコアは、段落のレイアウトが、一般にタイトルに関連する1つまたは複数のレイアウト(すなわち、既知のタイトルレイアウト)にどれだけ近く一致するかを表す0から1の間の値でありうる。0は、タイトルレイアウトである可能性が低く、1は、タイトルレイアウトである可能性が非常に高い。レイアウト基準スコアは、各テキストレイアウト属性の最終レイアウトスコアの合計として算出できる。テキストレイアウト属性の最終レイアウトスコアは、テキストレイアウト属性のスコア関数(すなわち、レイアウトスコア関数)およびテキストレイアウト属性の相対重みスコアに基づいて算出される。1つ以上の実施形態では、上述のセンタリングスコアおよび空白スコアは、それぞれセンタリング属性およびホワイトスペース属性のレイアウトスコア関数である。
【0047】
テキストスタイル属性およびテキストレイアウト属性のスコア関数を算出するための方法は、上述の例に限定されない。1つ以上の実施形態では、テキストスタイル属性およびテキストレイアウト属性の統計情報を考慮に入れる他の方法を使用して、テキストスタイル属性およびテキストレイアウト属性のスコア関数を算出できる。
【0048】
本発明の1つ以上の実施形態では、タイトルエンジン(110)は、テキストコンテンツ情報に基づいて、ED(106)の各段落についてのテキストコンテンツスコアを算出する。テキストコンテンツスコアは、段落の文字数に基づいて段落がタイトルになる可能性を表す。タイトルは一般的に短い(すなわち、より少ない文字を含む)ことが知られており、より高いテキストコンテンツスコアは段落がより短く(すなわちより少ない文字を含む)、タイトルである可能性が高いことを示す。
【0049】
本発明の1つ以上の実施形態では、段落のテキストコンテンツスコア(「text_score」)は、次のように算出できる。
text_score = 1 - (par_visible_char_count ÷ largest_par_visible_char_count)
【0050】
par_visible_char_countは、text_scoreが算出されている段落の可視文字数(つまり、各単語間のスペースを含まない文字数)を表す。largest_par_visible_char_countは、ED(106)内の最大段落の可視文字数を表す。たとえば、text_scoreが算出されている段落に可視文字数24が含まれ、ED(106)の最大の段落に可視文字数191が含まれているとする。したがって、この段落のテキストコンテンツスコアは0.87である。
【0051】
段落のテキストコンテンツスコアを算出するための方法は、上述の例に限定されない。1つ以上の実施形態では、各段落の文字数スコアを考慮に入れる他の方法を使用して、各段落のテキストコンテンツスコアを算出できる。
【0052】
本発明の1つ以上の実施形態では、タイトルエンジン(110)は、各段落のスタイル基準スコア、レイアウト基準スコア、およびテキストコンテンツスコアを使用して、各段落のタイトル信頼度スコアを算出する。1つ以上の実施形態では、タイトル信頼度スコアは0から1の間の定数とすることができ、1に近いタイトル信頼度スコアは段落がED(106)内のタイトルである可能性が高いことを示す。
【0053】
本発明の1つ以上の実施形態では、段落のタイトル信頼度スコアは、次のように算出できる。
title_confidence_score =(styling_criteria_score + layout_criteria_score) × text_score
【0054】
たとえば、段落が0.4277のスタイル基準スコア、0.3552のレイアウト基準スコア、および0.87のテキストコンテンツスコアを有すると仮定する。段落のタイトル信頼度スコアは0.68である。これは、段落がED(106)のタイトルである可能性が高いことを示す。
【0055】
段落のタイトル信頼度スコアを算出する方法は、上記の例に限定されない。1つ以上の実施形態では、テキストスタイル属性およびテキストレイアウト属性の統計情報、テキストコンテンツ情報、ならびに相対重みスコアを考慮に入れる他の方法を使用して、各段落のタイトル信頼度スコアを算出できる。
【0056】
本発明の1つ以上の実施形態では、タイトルエンジン(110)は、各段落のタイトル信頼度スコアを含むED(106)のメタデータ(112)を生成し、そのメタデータ(112)をバッファー(104)に格納する。あるいは、1つ以上の実施形態では、タイトルエンジン(110)は、タイトル信頼度スコアをED(107)のマークアップ版に書き戻す。1つ以上の実施形態では、メタデータ(112)は、外部バッファーに格納され、ED(106)のタイトルを推定する必要があるときはいつでもタイトルエンジン(110)によって取り出されてもよい。
【0057】
本発明の1つ以上の実施形態では、タイトルエンジン(110)は、検索語(たとえば、タイトルに現れるテキスト)を含むEDの集合内のタイトルを検索するというユーザーからの要求を受信する。タイトルエンジン(110)は、検索語を含む段落を特定するためにEDの集合を解析する。タイトルエンジン(110)は、段落を含む集合内の検索語を含むEDを取りだし、各段落のタイトル信頼度スコアを比較する。各段落のタイトル信頼度スコアを比較した後、タイトルエンジン(110)は、検索語を含む段落に対して、最大の、決定されたタイトル信頼度スコアを含むEDから始めて、最小の、決定されたタイトル信頼度スコアを含むEDまで、取り出されたEDを画面上に表示する。たとえば、EDの集合に文書Aと文書Bが含まれているとする。文書Aには検索語句のある段落が含まれ、その段落のタイトル信頼度スコアは0.68である。文書Bには検索語句のある段落が含まれており、その段落のタイトル信頼度スコアは0.07である。タイトルエンジン(110)は、文書Aと文書Bの両方を取り出し、文書Bの前に文書Aを表示する。
【0058】
システム(100)は、3つの構成要素(104、108、110)を有するように示されているが、本発明の他の実施形態では、システム(100)はより多い、またはより少ない構成要素を有することができる。さらに、上述の各構成要素の機能は、構成要素にわたって分割されてもよい。さらにまた、各構成要素(104、108、110)は、反復動作を実行するために複数回利用されてもよい。
【0059】
図2は、本発明の1つ以上の実施形態によるフローチャートを示す。このフローチャートは、電子文書(ED)内のタイトルを推定するためのプロセスを示している。図2のステップのうちの1つまたは複数のステップは、図1を参照して上述したシステム(100)の構成要素によって実行できる。本発明の1つ以上の実施形態では、図2に示される1つまたは複数のステップは、省略、繰り返し、または図2に示される順序とは異なる順序で実行されうる。したがって、本発明の範囲は、図2に示されるステップの特定の構成に限定されると考えるべきではない。
【0060】
図2に示すように、まず、文字からなる1行以上のテキストを含むEDが取得される(ステップ205)。1行以上のテキストは、EDの段落を構成する。EDには画像やグラフィックも含まれる。EDは、任意の供給源から入手(たとえば、ダウンロード、スキャンなど)できる。EDはEDの集合の一部である可能性がある。さらに、EDは、任意のサイズおよび任意のフォーマット(たとえば、PDF、OOXML、ODF、HTMLなど)でありうる。
【0061】
ステップ210において、図1を参照して上述したように、EDは、テキストスタイル属性、テキストレイアウト属性、および文字のテキストコンテンツ情報を含むEDのマークアップ版を生成するために解析される。
【0062】
ステップ215において、図1を参照して上述したように、一集合の所定の重みスコアが、テキストスタイル属性およびテキストレイアウト属性について取り出される。1つ以上の実施形態では、各テキストスタイル属性およびテキストレイアウト属性は、その集合内の所定の重みスコアに関連付けられている(すなわち、結び付けられている)。
【0063】
ステップ220において、図1を参照して上述したように、テキストスタイル属性およびテキストレイアウト属性の統計情報は、マークアップ版のEDを使用して生成される。
【0064】
ステップ225において、図1を参照して上述したように、相対重みスコアは、所定の重みスコアおよび生成された統計情報に基づいて各テキストスタイル属性およびテキストレイアウト属性に対して算出および/または設定される。
【0065】
ステップ230において、図1を参照して上述したように、相対重みスコアおよび生成された統計情報を使用して、段落ごとにスタイル基準スコア、レイアウト基準スコア、およびテキストコンテンツスコアが算出される。
【0066】
ステップ235において、図1を参照して上述したように、タイトル信頼度スコアは、各段落のスタイル基準スコア、レイアウト基準スコア、およびテキストコンテンツスコアを使用して、ED内の各段落について算出される。
【0067】
ステップ240において、図1を参照して上述したように、ED内の各段落についてのタイトル信頼度スコアを格納するメタデータが生成され、EDが格納されているのと同じバッファーに格納される。あるいは、バッファーは、EDを含まない異なるバッファーでありうる。1つ以上の実施形態では、タイトル信頼度スコアはマークアップ版のEDに書き戻される。
【0068】
図3A図3Kは、本発明の1つ以上の実施形態による実装例を示す図である。1つ以上の実施形態では、図1を参照して上述した例示的な算出方法が、図3A図3Kに示す実施例に適用される。しかしながら、異なる算出方法が適用されてもよいことは当業者には明らかであろう。
【0069】
図3Aは、文字からなる1行以上のテキストを含む電子文書(ED)(301)を示す。テキストの各行は段落(302)に分類されてもよい。図3Bでは、上から下に数えて1から6段落を含む合計6段落(302)(一部の段落は読みやすくするためにマークが付いていない)がある。各段落(302)は、単一行または複数行のテキストを含みうる。また、各段落(302)は、インデントを必要としない。
【0070】
図3Aでは、全ての段落(302)がEDコンテンツ境界ボックス(303)内に囲まれている。1つ以上の実施形態では、EDコンテンツ境界ボックス(303)は、ED(301)の単一ページ内の全コンテンツの基礎構造を定義する。EDコンテンツ境界ボックス(303)は、ページに対して設定された余白によって定義されてもよい。
【0071】
図3Aに見られるように、テキスト行境界ボックス(305)は、EDコンテンツ境界ボックス(303)内のテキスト行の基本構造を定義する。ED(301)内のテキストの各行は、テキスト行境界ボックス(305)を含む。テキストの各行はまた、図1を参照して上述したように、先頭の空白(307)および末尾の空白(309)を含みうる。テキスト行境界ボックス(305)およびEDコンテンツ境界ボックス(303)を使用して、各テキスト行の先頭の空白(307)および末尾の空白(309)を算出する。
【0072】
図3Bは、ED(315)のマークアップ版(「マークアップED」)の一部を示す。図3Bに見られるように、マークアップED(315)は、ED(301)の段落1(すなわち最上段落)の文字についてのスタイル情報(321)、レイアウト情報(317)、およびコンテンツ情報(319)を含む。図3Bでは、スタイル情報(321)は、テキスト(すなわちstyle_id)の様々な特徴または態様(すなわちスタイル)を定義する変数(すなわちv:1)として提示される。レイアウト情報(317)は、図3Aに示されるテキスト境界ボックス(305)の行の寸法を含む。これは、ED(301)のテキストレイアウト属性を算出するために使用される。コンテンツ情報(319)は、スタイル情報(321)が適用されているテキスト行内のすべての文字を含む。
【0073】
図3Cは、マークアップED(315)の一部を示す。図3Cに見られるように、スタイル情報(321)は、ED(301)内の文字のテキストスタイル属性(たとえば、フォント、フォントサイズ、フォントカラー、太字)を含む。
【0074】
図3Dは、ED(301)内の文字のテキストスタイル属性およびテキストレイアウト属性に対する集合の所定の重みスコアを含む表を示す。表に示されていない他の属性もED(301)に見出すことができることは当業者には明らかであろう。図3Dに見られるように、一般に、タイトルに見られる属性(すなわちタイトル属性)に関連する属性には、より高い所定の重みスコアが与えられる。所定の重みスコアは、ユーザーによって設定および修正されてもよい。
【0075】
図3Eは、図3Dに示す表にリストされたテキストスタイル属性についての統計情報を含む表を示す。図3Eに見られるように、テキストスタイル属性の各バリエーションおよび各バリエーションの頻度が提供されている。バリエーション情報は、テキストスタイル属性のバリエーションスコアを決定するために使用されてもよい。バリエーションの頻度は、そのバリエーションがあるED内の文字数を反映する。たとえば、ED(301)の文字数が合計745文字であるとする。図3Eに見られるように、ED(301)内の全ての文字は、同じOOXML_STYLE_NAME(すなわちスタイル名属性)、FONT_NAME(すなわちフォント名属性)、およびFONT_COLOR(すなわちフォントカラー属性)を有する。
【0076】
図3Fは、図3Aに示すEDコンテンツ境界ボックス(303)の寸法を含む表を示す。図3Fに見られるように、値は、ED(301)の最も左の境界および最も上の境界に基づいて算出される。
【0077】
図3Gは、図3Aに示したED(301)の段落1~3の縦方向および横方向の間隔情報を含む表である。図3Gに見られるように、垂直方向の間隔の前および後の値は、それぞれ段落の上下の空白の量を表す。水平方向の間隔の前および後の値は、それぞれ先頭と末尾の空白(307、309)を表す。図3Gに示す間隔情報は、テキスト行を段落にグループ化するために使用できる。
【0078】
本発明の1つ以上の実施形態では、図3Gの表に示されている垂直方向および水平方向の間隔の値は、図3Bのレイアウト情報(317)と、図3FのEDコンテンツ境界ボックス(303)の寸法と、に基づいて算出できる。たとえば、段落番号1の場合、レイアウト情報(317)は、段落1がED(301)の左端の境界から2.69インチで始まることを示す(つまり、段落1の最初の文字はEDの境界(301)の左端から2.69インチで始まる)。この値は、EDコンテンツ境界ボックス(303)の左境界の値(すなわち、0.99インチ)によって減算されて、段落1に対して1.69インチの先行空白値をもたらす。さらに、図3Bでは、段落1の幅は3.11インチである。したがって、段落1の最後の文字は、ED(301)の左端の境界から5.8インチ(つまり、2.69インチ+3.11インチ)である。図3Fに見られるように、EDコンテンツ境界ボックス(303)の右境界は、ED(301)の最も左の境界から7.45インチで終了する。したがって、段落1の末尾の空白値は、7.45インチから5.8インチを引いた値として1.65と算出できる。
【0079】
図3Hは、図3Aに示すED(301)における垂直方向の間隔の要約を含む表を示す。図3Hに示す情報は、図1を参照して説明したレイアウトスコア関数を算出するために、図3Hを使用できる。
【0080】
図3Iは、図3Aに示されるED(301)内の各テキストスタイル属性およびテキストレイアウト属性に対する相対重みスコアの集合を含む表を示す。図3Iに示すように、図1を参照して説明した、所定の重みスコアを調整する方法が適用される。具体的には、1つ以上の実施形態では、1の可変性を有するすべてのテキストスタイル属性の所定の重みスコアは、0の相対重みスコアに設定されうる。センタリング属性については、相対重みスコアは、所定の重みスコアを、ED(106)内の最良のセンタリングの段落(すなわち、ED(106)内の最も中央に配置された段落)を反映したセンタリングスコアでスケーリングすることによって算出できる。また、空白属性については、すべての文書に空白が含まれるため、相対重みスコアを所定の重みスコアと同じに設定する。
【0081】
図3Iに見られるように、上記の調整方法に基づいて、一部のテキストスタイル属性の相対重みスコアが0になり、相対重みスコアの合計が1にならなくなる。相対重みスコアは、相対重みスコアの合計が1になるようにスケーリングされる。相対重みスコアは、図3Iの表の最も右の列に示されている。
【0082】
図3Jは、段落1から3のセンタリングスコアを含む表を示す。図3Jに示されている情報は、図1を参照して説明したように、レイアウトスコア関数と、テキストレイアウト属性の相対重みスコアとを算出するために使用できる。たとえば、段落1のセンタリングスコアがED(106)の最大センタリングスコアであると仮定する(すなわち、段落1はED(301)の最も中央に配置された段落(502)である)。段落1のセンタリングスコアは、センタリング属性の相対重みスコアを算出するために使用される。図3Iに見られるように、センタリング属性の所定の重みスコアで除算されたセンタリング属性の相対重みスコアは、0.99(すなわち、最大センタリングスコア)である。同様に、1つ以上の実施形態では、各段落のセンタリングスコアは、センタリング属性の最終レイアウトスコアを算出するためのレイアウトスコア関数として設定できる。段落に複数のセンタリングスコアが含まれている場合は、段落の最小センタリングスコアがレイアウトスコア関数に設定される。
【0083】
図3Kは、図3Aに示されるED(301)の段落1および段落2のタイトル信頼度スコアを含む表を示す。図3Kはさらに、タイトル信頼度スコアを算出するのに必要な各段落について1つまたは複数の値(たとえば、スタイルおよびレイアウトスコア関数、スケーリングされた相対重みスコア、最終的なスタイルおよびレイアウトスコア、ならびにテキストコンテンツスコア)を含む。図3Kに見られるように、段落1のタイトル信頼度スコアは0.68である。これは1に近く、段落1がタイトルである可能性が高いことを示している。これに対して、段落2のタイトル信頼度スコアは0.07である。これは0に近く、段落2がタイトルではない可能性が高いことを示している。図3Aに戻る。図3Aを一見すると、段落1(すなわち、「Why Dogs are Better than Cats」)がED(301)の可能性のあるタイトルであるように見え、段落2が通常の文であるように見えることを示している。
【0084】
本発明の実施形態は、使用されているプラットフォームにかかわらず、事実上あらゆるタイプの計算システム上で実施できる。たとえば、計算システムは、1つまたは複数のモバイルデバイス(たとえば、ラップトップコンピューター、スマートフォン、パーソナルデジタルアシスタント、タブレットコンピューター、または他のモバイルデバイス)、デスクトップコンピューター、サーバー、サーバシャーシ内のブレード、あるいは任意の他のタイプまたは本発明の1つまたは複数の実施形態を実行するために、少なくとも最小処理能力、メモリー、および入力および出力装置を含む1つまたは複数の計算装置からなる。たとえば、図4に示すように、計算システム(400)は、1つまたは複数のコンピュータープロセッサー(402)、関連メモリー(404)(たとえば、ランダムアクセスメモリー(RAM)、キャッシュメモリー、フラッシュメモリーなど)、1つまたは複数の記憶装置(406)(たとえば、ハードディスク、コンパクトディスク(CD)ドライブまたはデジタル多用途ディスク(DVD)ドライブなどの光学ドライブ、フラッシュメモリースティックなど)、および他の多数の要素および機能を含む。コンピュータープロセッサー(402)は、命令を処理するための集積回路でありうる。
【0085】
たとえば、コンピュータープロセッサーは、1つ以上のコア、またはプロセッサーのマイクロコアでありうる。計算システム(400)はまた、タッチスクリーン、キーボード、マウス、マイクロフォン、タッチパッド、電子ペン、または任意の他の種類の入力装置などの1つ以上の入力装置(410)を含みうる。さらに、計算システム(400)は、スクリーン(たとえば、液晶ディスプレイ(LCD)、プラズマディスプレイ、タッチスクリーン、陰極線管(CRT)モニターなどの1つ以上の出力装置(408)、プロジェクター、または他の表示装置、プリンター、外部記憶装置、または他の任意の出力装置)を含むことができる。1つ以上の出力装置は入力装置と同じでも異なっていてもよい。計算システム(400)は、ネットワーク(412)(たとえば、ローカルエリアネットワーク(LAN)、インターネットなどのワイドエリアネットワーク(WAN)、モバイルネットワーク、または任意の他の種類のネットワーク)にネットワークインタフェース接続(図示せず)を介して接続できる。入力および出力装置は、コンピュータープロセッサー(402)、メモリー(404)、および記憶装置(406)にローカルまたはリモートで(たとえばネットワーク(412)を介して)接続されてもよい。多くの異なる種類の計算システムが存在し、前述の入力および出力装置は他の形態を取りうる。
【0086】
本発明の実施形態を実行するためのコンピューター読取可能なプログラムコードの形態のソフトウェア命令は、全体的にまたは部分的に、CD、DVD、記憶装置、ディスク、テープ、フラッシュメモリー、物理メモリー、またはその他のコンピューター読取可能な記憶媒体などのコンピューター読取可能な記録媒体に一時的または恒久的に格納できる。具体的には、ソフトウェア命令は、プロセッサーによって実行されたときに本発明の実施形態を実行するように構成されたコンピューター読取可能なプログラムコードに対応しうる。
【0087】
さらに、前述の計算システム(400)の1つまたは複数の要素を遠隔地に配置し、ネットワーク(412)を介して他の要素に接続できる。さらに、本発明の1つ以上の実施形態は、複数のノードを有する分散システム上で実施することができ、本発明の各部分は分散システム内の異なるノード上に配置できる。本発明の一実施形態では、ノードは別個の計算装置に対応する。あるいは、ノードは関連する物理メモリーを有するコンピュータープロセッサーに対応しうる。あるいは、ノードは、共有メモリーおよび/またはリソースを有するコンピュータープロセッサーまたはコンピュータープロセッサーのマイクロコアに対応しうる。
【0088】
本発明を限られた数の実施形態に関して説明してきたが、本開示の恩恵を受ける当業者であれば、ここに開示された本発明の範囲から逸脱しない他の実施形態を考案できることを理解するであろう。したがって、本発明の範囲は添付の特許請求の範囲によってのみ限定されるべきである。
図1
図2
図3A
図3B
図3C
図3D
図3E
図3F
図3G
図3H
図3I
図3J
図3K
図4