(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-08
(45)【発行日】2024-02-19
(54)【発明の名称】文書におけるタイトル及びセクションの推測
(51)【国際特許分類】
G06F 40/258 20200101AFI20240209BHJP
G06F 40/143 20200101ALI20240209BHJP
G06T 11/60 20060101ALI20240209BHJP
G06F 40/137 20200101ALI20240209BHJP
【FI】
G06F40/258
G06F40/143
G06T11/60 100A
G06F40/137
【外国語出願】
(21)【出願番号】P 2020018867
(22)【出願日】2020-02-06
【審査請求日】2022-07-20
(32)【優先日】2019-03-29
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】519448326
【氏名又は名称】コニカ ミノルタ ビジネス ソリューションズ ユー.エス.エー., インコーポレイテッド
(74)【代理人】
【識別番号】110001254
【氏名又は名称】弁理士法人光陽国際特許事務所
(72)【発明者】
【氏名】プレブル, ティム
【審査官】木村 大吾
(56)【参考文献】
【文献】特開平11-250041(JP,A)
【文献】特開2004-178010(JP,A)
【文献】特開2014-059896(JP,A)
【文献】米国特許出願公開第2015/0169676(US,A1)
【文献】米国特許出願公開第2018/0300315(US,A1)
【文献】米国特許出願公開第2018/0268548(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-40/58
G06T 11/60
(57)【特許請求の範囲】
【請求項1】
コンピューターを用いて、電子文書(ED)を処理し、前記電子文書におけるタイトル及びセクションを推測する方法であって、
前記コンピューターが、
前記電子文書に視覚分析を適用し、前記電子文書のタイトル候補及びセクション候補を特定する工程と、
前記セクション候補に基づき、前記タイトル候補をフィルタリングする工程と、
前記フィルタリングされたタイトル候補に基づき、前記セクション候補をフィルタリングする工程と、
前記電子文書に意味分析を適用し、前記電子文書の話題及び部分を特定する工程と、
前記特定された話題及び部分に基づき、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込む工程と、
前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成する工程と、を含む方法。
【請求項2】
前記コンピューターが、
前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補に基づき、前記話題及び前記部分を絞り込む工程と、
前記絞り込まれた話題及び前記絞り込まれた部分に基づき、前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を更に絞り込む工程と、
前記更に絞り込まれたタイトル候補及び前記更に絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成する工程と、を更に含む請求項1に記載の方法。
【請求項3】
前記タイトル候補及び前記セクション候補を絞り込む前記工程は、更に、
前記コンピューターが、
前記視覚分析を前記部分のうち第一の部分にのみ再度適用する工程であって、前記第一の部分は前記話題のうち第一の話題に関連している工程と、
前記第一の部分内において特定された、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を、前記第一の話題と比較する工程であって、前記第一の部分内にある前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補は、前記話題のうち第二の話題に関連している工程と、
前記第一の話題が前記第二の話題と
一致することに基づき、前記第一の部分内にある前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補が、前記第一の部分と関連していると判断する工程と、を含む請求項1
又は2に記載の方法。
【請求項4】
前記コンピューターが、
前記視覚分析及び前記意味分析を前記電子文書の全体に行うことに基づき、前記第一の話題と前記第二の話題との間の潜在的な非一貫性を特定する工程と、
前記潜在的な非一貫性に基づき、前記第一の部分を選択する工程と、を更に含む請求項3に記載の方法。
【請求項5】
前記セクション候補はそれぞれ、前記タイトル候補のうち少なくとも一つと関連しており、
前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込む前記工程は、更に、
前記コンピューターが、
前記フィルタリングされたセクション候補のうち、前記フィルタリングされたタイトル候補のいずれとも関連していない第一のフィルタリングされたセクション候補を特定する工程と、
前記視覚分析を、前記第一のフィルタリングされたセクション候補にのみ再度適用する工程と、
前記第一のフィルタリングされたセクション候補が非テキストオブジェクトを含むと判断する工程と、
前記視覚分析を用いて、前記フィルタリングされたタイトル候補のいずれかが前記非テキストオブジェクトの所定領域内にあるかどうか探す工程と、
前記フィルタリングされたタイトル候補のうち第一のフィルタリングされたタイトル候補を、前記所定領域内において特定することに基づき、前記第一のフィルタリングされたタイトル候補が、前記第
一のフィルタリングされたセクション候補のタイトルであると判断する工程と、を含む請求項1
から4のいずれか一項に記載の方法。
【請求項6】
前記電子文書は複数のページを含み、
前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込む前記工程は、更に、
前記コンピューターが、
前記話題又は前記部分に基づき、前記電子文書を、前記ページの第一サブセットと、前記第一サブセットと重複しない前記ページの第二サブセットとに
絞り込む工程と、
前記第一サブセット及び前記第二サブセット内において
、特定されなかった追加のタイトル候補及びセクション候補を特定するために、前記視覚分析を前記第一サブセット及び前記第二サブセットに対して別々に適用する工程と、を含む請求項1
から5のいずれか一項に記載の方法。
【請求項7】
前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込む前記工程は、更に、
前記コンピューターが、
前記話題又は前記部分に基づき、前記電子文書を、第一部と、前記第一部と重複せずかつマスクされた第二部に
絞り込む工程と、
前記第一
部内において
、特定されなかった追加のタイトル候補及びセクション候補を特定するために、前記視覚分析を前記第一部にのみ再度適用する工程と、を含む請求項1
から6のいずれか一項に記載の方法。
【請求項8】
前記電子文書の前記タイトル及び前記セクションはタグを含まない、請求項1
から7のいずれか一項に記載の方法。
【請求項9】
前記視覚分析は、畳み込みニューラルネットワーク(CNN)を回帰型ニューラルネットワーク(RNN)と組み合わせて用いて適用される、請求項1
から8のいずれか一項に記載の方法。
【請求項10】
前記意味分析は、自然言語処理(NLP)を用いて適用される、請求項1
から9のいずれか一項に記載の方法。
【請求項11】
電子文書(ED)を処理して、前記電子文書の構文解析版におけるタイトル及びセクションを推測するた
めプログラ
ムを格納した、非一時的なコンピューター読取り可能な媒体(CRM)
において、前
記プログラ
ムは、コンピューターに
前記電子文書に視覚分析を適用させて、前記電子文書のタイトル候補及びセクション候補を特定させ、
前記セクション候補に基づき、前記タイトル候補をフィルタリングさせ、
前記フィルタリングされたタイトル候補に基づき、前記セクション候補をフィルタリングさせ、
前記電子文書に意味分析を適用させて、前記電子文書の話題及び部分を特定させ、
前記特定された話題及び部分に基づき、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込ませ、
前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成させる
プログラム。
【請求項12】
前
記プログラ
ムは、更に、コンピューターに
前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補に基づき、前記話題及び前記部分を絞り込ませ、
前記絞り込まれた話題及び前記絞り込まれた部分に基づき、前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を更に絞り込ませ、
前記更に絞り込まれたタイトル候補及び前記更に絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成させる、請求項11に記載の
プログラム。
【請求項13】
前記タイトル候補及び前記セクション候補の前記絞り込みは、更に、
前記視覚分析を、前記部分のうち第一の部分にのみ再度適用する工程であって、前記第一の部分は前記話題のうち第一の話題に関連している工程と、
前記第一の部分内において特定された、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を前記第一の話題と比較する工程であって、前記第一の部分内にある前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補は、前記話題のうち第二の話題に関連している工程と、
前記第一の話題が前記第二の話題と
一致することに基づき、前記第一の部分内にある前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補が、前記第一の部分と関連していると判断する工程と、を含む、請求項11
又は12に記載の
プログラム。
【請求項14】
前
記プログラ
ムは、更に、コンピューターに、
前記視覚分析及び前記意味分析を前記電子文書の全体に行うことに基づき、前記第一の話題と前記第二の話題との間の潜在的な非一貫性を特定させ、
前記潜在的な非一貫性に基づき、前記第一の部分を選択させる、請求項13に記載の
プログラム。
【請求項15】
前記セクション候補はそれぞれ、前記タイトル候補のうち少なくとも一つと関連しており、
前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補の前記絞り込みは、更に、
前記フィルタリングされたセクション候補のうち、前記フィルタリングされたタイトル候補のいずれとも関連していない第一のフィルタリングされたセクション候補を特定する工程と、
前記視覚分析を、前記第一のフィルタリングされたセクション候補にのみ再度適用する工程と、
前記第一のフィルタリングされたセクション候補が非テキストオブジェクトを含むと判断する工程と、
前記視覚分析を用いて、前記フィルタリングされたタイトル候補のいずれかが前記非テキストオブジェクトの所定領域内にあるかどうか探す工程と、
前記フィルタリングされたタイトル候補のうち第一のフィルタリングされたタイトル候補を、前記所定領域内において特定することに基づき、前記第一のフィルタリングされたタイトル候補が、前記第
一のフィルタリングされたセクション候補のタイトルであると判断する工程と、を含む、請求項11
から14のいずれか一項に記載の
プログラム。
【請求項16】
電子文書(ED)を処理して、前記電子文書の構文解析版におけるタイトル及びセクションを推測するためのシステムであって、前記システムは
メモリーと、
前記メモリーと接続されたプロセッサーを備え、前記プロセッサーは、
前記電子文書に視覚分析を適用し、前記電子文書のタイトル候補及びセクション候補を特定し、
前記セクション候補に基づき、前記タイトル候補をフィルタリングし、
前記フィルタリングされたタイトル候補に基づき、前記セクション候補をフィルタリングし、
前記電子文書に意味分析を適用し、前記電子文書の話題及び部分を特定し、
前記特定された話題及び部分に基づき、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込み、
前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成するシステム。
【請求項17】
前記プロセッサーは、更に、
前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補に基づき、前記話題及び前記部分を絞り込み、
前記絞り込まれた話題及び前記絞り込まれた部分に基づき、前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を更に絞り込み、
前記更に絞り込まれたタイトル候補及び前記更に絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成する、請求項16に記載のシステム。
【請求項18】
前記タイトル候補及び前記セクション候補の前記絞り込みは、更に、
前記視覚分析を、前記部分のうち第一の部分にのみ再度適用する工程であって、前記第一の部分は前記話題のうち第一の話題に関連している工程と、
前記第一の部分内において特定された、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を前記第一の話題と比較する工程であって、前記第一の部分内にある前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補は、前記話題のうち第二の話題に関連している工程と、
前記第一の話題が前記第二の話題と
一致することに基づき、前記第一の部分内にある前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補が、前記第一の部分と関連していると判断する工程と、を含む、請求項16
又は17に記載のシステム。
【請求項19】
前記プロセッサーは、更に、
前記視覚分析及び前記意味分析を前記電子文書の全体に行うことに基づき、前記第一の話題と前記第二の話題との間の潜在的な非一貫性を特定し、
前記潜在的な非一貫性に基づき、前記第一の部分を選択する、請求項18に記載のシステム。
【請求項20】
前記セクション候補はそれぞれ、前記タイトル候補のうち少なくとも一つと関連しており、
前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補の前記絞り込みは、更に、
前記フィルタリングされたセクション候補のうち、前記フィルタリングされたタイトル候補のいずれとも関連していない第一のフィルタリングされたセクション候補を特定する工程と、
前記視覚分析を、前記第一のフィルタリングされたセクション候補にのみ再度適用する工程と、
前記第一のフィルタリングされたセクション候補が非テキストオブジェクトを含むと判断する工程と、
前記視覚分析を用いて、前記フィルタリングされたタイトル候補のいずれかが前記非テキストオブジェクトの所定領域内にあるかどうか探す工程と、
前記フィルタリングされたタイトル候補のうち第一のフィルタリングされたタイトル候補を、前記所定領域内において特定することに基づき、前記第一のフィルタリングされたタイトル候補が、前記第
一のフィルタリングされたセクション候補のタイトルであると判断する工程と、を含む、請求項16
から19のいずれか一項に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書におけるタイトル及びセクションの推測に関する。
【発明の概要】
【発明が解決しようとする課題】
【0002】
ある文書の内容をあらかじめ理解するにあたり、その文書のタイトル及びセクションはユーザーにとって助けとなる。例えばOOXML文書やPDF文書等の電子文書は、ユーザーがこれらのタイトル及びセクションを特定できるようにするためのタグを含んでいる。しかし、電子文書の作成方法によっては、全てのタイトルとセクションをタグで特定できない場合があり、タイトルとセクションに誤ったタグ付けがなされる場合もある。それでも、ユーザーはこれら電子文書のタイトル及びセクションを正確に特定したいと考えている。
【課題を解決するための手段】
【0003】
主として、一側面において、本発明は、コンピューターを用いて、電子文書(electronic document,ED)を処理し、当該EDにおけるタイトル及びセクションを推測する方法に関する。当該方法は、前記コンピューターが、前記電子文書に視覚分析を適用し、前記電子文書のタイトル候補及びセクション候補を特定する工程と、前記セクション候補に基づき、前記タイトル候補をフィルタリングする工程と、前記フィルタリングされたタイトル候補に基づき、前記セクション候補をフィルタリングする工程と、前記電子文書に意味分析を適用し、前記電子文書の話題及び部分を特定する工程と、前記特定された話題及び部分に基づき、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込む工程と、前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成する工程と、を含む。
【0004】
主として、一側面において、本発明は、電子文書(ED)を処理し、当該EDの構文解析版におけるタイトル及びセクションを推測するためのプログラムを格納した、非一時的なコンピューター読取り可能な媒体(CRM)のプログラムに関する。前記プログラムは、コンピューターに、前記電子文書に視覚分析を適用させて、前記電子文書のタイトル候補及びセクション候補を特定させ、前記セクション候補に基づき、前記タイトル候補をフィルタリングさせ、前記フィルタリングされたタイトル候補に基づき、前記セクション候補をフィルタリングさせ、前記電子文書に意味分析を適用させて、前記電子文書の話題及び部分を特定させ、前記特定された話題及び部分に基づき、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込ませ、前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成させる。
【0005】
主として、一側面において、本発明は、電子文書(ED)を処理し、当該EDの構文解析版におけるタイトル及びセクションを推測するためのシステムに関する。システムは、メモリーと、前記メモリーと接続されたプロセッサーを備える。前記プロセッサーは、前記電子文書に視覚分析を適用し、前記電子文書のタイトル候補及びセクション候補を特定し、前記セクション候補に基づき、前記タイトル候補をフィルタリングし、前記フィルタリングされたタイトル候補に基づき、前記セクション候補をフィルタリングし、前記電子文書に意味分析を適用し、前記電子文書の話題及び部分を特定し、前記特定された話題及び部分に基づき、前記フィルタリングされたタイトル候補及び前記フィルタリングされたセクション候補を絞り込み、前記絞り込まれたタイトル候補及び前記絞り込まれたセクション候補を特定した、前記電子文書のマークアップ版を生成する。
【0006】
本発明のその他の側面は、以下の説明及び添付の特許請求の範囲から明らかとなる。
【図面の簡単な説明】
【0007】
【
図1】本発明の一以上の実施形態に係るシステムを示す。
【
図2】本発明の一以上の実施形態に係るフローチャートを示す。
【
図3】
図3A~3Eは、本発明の一以上の実施形態に係る実行例を示す。
【
図4】本発明の一以上の実施形態に係るコンピューティングシステムを示す。
【発明を実施するための形態】
【0008】
本発明の具体的な実施形態を、添付の図面を参照して詳細に説明する。複数の図における同様の構成要素は、一貫性を保つため、同様の参照符号で示される。
【0009】
以下の本発明の実施形態の詳細な説明では、本発明がより十分に理解されるよう、具体的な詳細を数多く示している。しかし、当業者にとっては、これらの具体的な詳細がなくとも本発明が実施可能であることは明らかであろう。他の例では、説明が不必要に複雑化するのを避けるため、周知の特徴について詳細に説明していない。
【0010】
主として、本発明の実施形態は、電子文書(ED)を処理して当該電子文書のタイトル及びセクションを推測するための方法、非一時的なコンピューター読取り可能な媒体(CRM)、及びシステムを提供する。具体的には、1ページ以上で、少なくとも1つのセクションを含むEDを取得する。EDはタイトルを含んでも含まなくてもよい。EDに対し、視覚分析及び意味分析を組み合わせて適用する処理を一つ以上行い、内容情報(例えば、EDのタイトル候補、セクション候補、話題、及び部分)を取得する。たとえ当該EDのタイトル及びセクションがはっきりと特定されていないとしても(すなわち、ラベル付け及び/又はタグ付けがされていないとしても)、特定されたEDの内容から、当該EDのタイトル及びセクションを推測することができる。
【0011】
図1は本発明の一以上の実施形態に係るシステム(100)を示す。
図1に示されるように、システム(100)は、例えばバッファ(102)、推測エンジン(106)、収束エンジン(108)といった複数の構成要素を有する。これら構成要素(102、106、及び108)はそれぞれ、同じコンピューティング装置(例えば、パーソナルコンピューター(PC)、ノート型コンピューター、タブレットPC、スマートフォン、多機能プリンター、キオスク、サーバー等)に配されてもよいし、有線及び/又は無線セグメントを有する任意のサイズのネットワークによって接続された、異なるコンピューティング装置に配されてもよい。各構成要素については以下で説明する。
【0012】
バッファ(102)は、ハードウェア(すなわち、回路)、ソフトウェア、又はこれらの任意の組み合わせに実装できる。バッファ(102)は、電子文書(ED)(104)を記憶するように構成される。ED(104)は、文字からなる1行以上のテキストと非テキストオブジェクト(例えば、画像、図、表、図表、グラフ等)との組み合わせを含み得る。ED(104)は、どのような情報源から取得されてもよい(例えば、ダウンロードやスキャン等)。ED(104)は、1ページの文書でも複数ページの文書でもよい。またED(104)は、いかなるサイズ、フォーマットでもよい(例えば、PDF、OOXML、ODF、HTML等)。
【0013】
システム(100)は、推測エンジン(106)を含む。推測エンジン(106)は、ハードウェア(すなわち、回路)、ソフトウェア、又はこれらの任意の組み合わせに実装できる。推測エンジン(106)は、ED(104)を構文解析して、ED(104)内の文字の内容、レイアウト及びスタイル情報を抽出し、抽出された情報に基づいて、ED(104)の構文解析版を生成する。ED(104)の構文解析版は、バッファ(102)に記憶され得る。あるいは、推測エンジン(106)がED(104)をビットマップオブジェクトに変換し、ED(104)のビットマップ変換版をバッファ(102)に記憶する。
【0014】
推測エンジン(106)は更に、ED(104)に視覚分析を適用し、ED(104)の構文解析版における文字のレイアウト及びスタイル情報、又はED(104)のビットマップ変換版に基づいて、タイトル候補及びセクション候補(すなわち、タイトル及びセクションの可能性があるもの)を特定する。視覚分析は、文字のレイアウト及びスタイル情報並びに/又はED(104)のビットマップ変換版を用いて正確にタイトル及びセクション候補を認識できる、いかなるシステム、プログラム、ソフトウェア、又はこれらの組み合わせ(以降、「視覚推測手段」と称する)を用いて適用され得る。例えば、視覚推測手段は、文書のタイトル及びセクションを認識するよう(例えば、人工知能を用いて)訓練された、畳み込みニューラルネットワーク、回帰型ニューラルネットワーク、又はこれらの組み合わせのいずれかであってよい。
【0015】
タイトル候補は、ED(104)全体としての名前、ED(104)のセクション及び/又はED(104)内の非テキストオブジェクトのいずれかを特定する、テキスト又は複数のテキストの組み合わせを含み得る。タイトル候補は、ED(104)内の他のテキストとは視覚的に異なることがある(例えば、タイトル候補は、より大きなフォントサイズ、異なるフォントスタイル、異なるフォントカラー、又はこれらの組み合わせを有することがある)。ED(104)は、必ずしもタイトル候補を含む必要はない。
【0016】
セクション候補は、ED(104)の一部を含み得る。このED(104)の一部の内容は、ED(104)の他の内容とは視覚的に異なっている(例えば、一つの段落や段落群、いずれかの非テキストオブジェクト等)。セクション候補は、ネストされた又は階層的に示された小さなセクションを二つ以上含む大きなセクションでもよい。ED(104)は、少なくとも一つのセクション候補を含まなければならない(例えば、一つのセクション候補がED全体をカバーする)。ED(104)の各セクション候補は、タイトル候補と関連し得る。
【0017】
推測エンジン(106)は更に、ED(104)に対して意味分析を適用し、ED(104)の構文解析版における文字の内容情報、又はED(104)のビットマップ変換版に基づき、話題及び部分を特定する。意味分析は、ED(104)内のテキストの意味(すなわち、意味及び論理)を正確に認識できるいかなるシステム、プログラム、ソフトウェア、又はこれらの組み合わせ(以降、「意味推測手段」と称する)を用いて適用され得る。例えば、意味分析は一以上の自然言語処理(NLP)技術を用いて適用され得る。
【0018】
一以上の実施形態において、ED(104)の話題は、ED(104)全体の、又はED(104)の一以上の箇所の主な内容である。ED(104)は、少なくとも1つ話題を有していなければならない。ED(104)の話題は、タイトル及びセクション候補のうち一つ以上と関連し得る。
【0019】
一以上の実施形態において、ED(104)の部分は、ED(104)の内容を識別することに基づき特定されるED(104)の一部(すなわち、領域)である。例えば、ED(104)が内容Aを有するA部と、内容Bを有するB部とを含み、更にこの内容Aと内容Bは異なるとすると、ED(104)のA部とB部は、それぞれED(104)の部分として特定されるだろう。一以上の実施形態において、ED(104)内の非テキストオブジェクトは、それぞれED(104)の部分として特定される。ED(104)の内容は、話題に基づいて識別され得る(すなわち、異なる話題は異なる内容として扱われる)。ED(104)は、少なくとも一つの部分を含む(すなわち、ED(104)全体が単一の部分として扱われる)。一つの部分は、その部分内にネストされた又は階層的に示された他の部分を一以上含み得る。ED(104)の部分は、タイトル候補及びセクション候補のうち一つ以上と関連し得る(すなわち、ED(104)の部分は、ED(104)の話題の一つ以上と関連し得る)。
【0020】
一以上の実施形態において、ED(104)のタイトル候補及びセクション候補を特定するのに、単一の視覚推測手段を用いてよい。あるいは、タイトル候補及びセクション候補を特定するのに、複数の視覚推測手段を用いてもよい(例えば、タイトル候補について一以上の視覚推測手段、セクション候補について一以上の視覚推測手段を用いてよい)。同様に、ED(104)の話題及び部分を特定するのに、単一の意味推測手段を用いてよい。あるいは、話題及び部分を特定するのに、複数の意味推測手段を用いてもよい(例えば、話題について一以上の意味推測手段、部分について一以上の意味推測手段を用いてよい)。
【0021】
システム(100)は、収束エンジン(108)を含む。収束エンジン(108)は、ハードウェア(すなわち、回路)、ソフトウェア、又はこれらの任意の組み合わせに実装できる。収束エンジン(108)は、推測エンジン(106)と連携して機能し、視覚分析と意味分析を所定の順序で適用することによって、ED(104)のタイトル及びセクションを推測するための一以上の実施形態に係る反復処理を実行する。一以上の実施形態に係る反復処理については、以下、
図2に示すフローチャートを参照して詳細に説明する。
【0022】
収束エンジン(108)は、更に、タイトル候補及びセクション候補が特定された(すなわち、ユーザーの為に、タイトル候補及びセクション候補が囲みやハイライト等を用いてED(104)の他の内容から区別された)ED(104)のマークアップ版を生成する。一以上の実施形態において、ED(104)のマークアップ版におけるタイトル及びセクションの特定結果は、ED(104)に適用された視覚及び意味推測手段の種類によって異なり得る。
【0023】
システム(100)は3つの構成要素(102、106、108)を有するものとしているが、本発明の他の実施形態においては、システム(100)の構成要素はより多くても少なくてもよい。また、上述した各構成要素の機能は、構成要素間で分担されてもよい。また、反復処理を遂行するにあたり、各構成要素(102、106、108)を複数回用いてよい。
【0024】
図2は、電子文書(ED)を処理して当該EDのタイトル及びセクションを推測するための、一以上の実施形態に係る処理のフローチャートである。
図2のステップのうち一つ以上が、
図1を参照しながら上述したシステム(100)の構成要素によって実行され得る。本発明の一以上の実施形態において、
図2のステップのうち一つ以上を省略し、反復し、及び/又は
図2に示される順序とは異なる順序で実施してもよい。よって、本発明の範囲は、
図2に示される具体的なステップの配置に限定されるとみなされるべきではない。
【0025】
はじめに、EDが取得される(ステップ205)。EDは、文字から成る1行以上のテキストや非テキストオブジェクト等の組み合わせを含み得る。ED(104)は、どのような情報源から取得されてもよい(例えば、ダウンロードやスキャン等)。ED(104)は、1ページの文書でも複数ページの文書でもよい。また、ED(104)は、いかなるサイズ、フォーマットでもよい(例えば、PDF、OOXML、ODF、HTML等)。EDは少なくとも一つのセクション、少なくとも一つの話題、少なくとも一つの部分を含み、タイトルは含まなくてもよい。
【0026】
ステップ210Aでは、
図1を参照して上述した視覚推測手段を用いて、EDに対して視覚分析を適用し、EDのタイトル候補を特定する。ステップ210Bでは、
図1を参照して上述した視覚推測手段を用いて、EDに対して視覚分析を適用し、EDのセクション候補を特定する。これについては以下、
図3Bで詳細に例示する。
【0027】
ステップ215では、ステップ210Bで特定されたセクション候補を考慮しつつ(すなわち、セクション候補に基づき)、視覚推測手段をEDに適用し、ステップ210Aで特定されたタイトル候補をフィルタリングする(すなわち、絞り込む)。ステップ220では、ステップ215でフィルタリングされたタイトル候補(すなわち、フィルタリングされたタイトル候補)を考慮しつつ、視覚推測手段をEDに適用し、ステップ210Bで特定されたセクション候補をフィルタリングする。
【0028】
一以上の実施形態において、ステップ215及び220で生じ得る、特定されたタイトル候補及びセクション候補の変化の度合い(すなわち、新たに特定されたタイトル候補及びセクション候補の数、特定されたタイトル候補及びセクション候補のうち除かれたものの数、特定されたタイトル候補と特定されたセクション候補との関連性、等)については、視覚推測手段が行う分析の特性に左右される(すなわち、視覚推測手段の能力に左右される)。異なる種類の視覚推測手段を用いれば、ステップ215と220の結果は異なり得る。これについては以下、
図3Cで詳細に例示する。
【0029】
ステップ225では、
図1を参照して説明した意味推測手段を用いて、EDに対して意味分析を適用し、話題及び部分を特定するとともに、特定された部分と特定された話題とを関連付ける。これについては以下、
図3Dで詳細に例示する。
【0030】
ステップ230では、ステップ215と220でフィルタリングされたタイトル候補及びセクション候補(すなわち、フィルタリングされたタイトル候補及びフィルタリングされたセクション候補)を再評価し絞り込む。ここでの再評価及び絞り込みは、ステップ225で特定された話題及び部分に基づき、視覚推測手段と意味推測手段の組み合わせを用いて行う。
【0031】
一以上の実施形態において、フィルタリングされたタイトル候補及びセクション候補の絞り込みは、EDの一部のみに基づく絞り込まれたインプットを視覚推測手段に与えることにより、話題及び部分に基づいて行われる。例えば、推測手段へのある絞り込まれたインプットは、ステップ230で特定された部分のうち一つに基づき得る(例えば、視覚推測手段による視覚分析は、当該一つの部分のみに対して行われる)。これらの絞り込まれたインプットを用いることで、視覚推測手段の対象が絞られる。これにより、EDの視覚的な特徴(すなわち、EDのスタイル及びレイアウト情報、又はビットマップ変換版におけるあるビット)が、視覚分析をED全体に適用した場合と比べて、より際立つこととなる。
【0032】
視覚推測手段の対象は、潜在的な非一貫性のある箇所にフォーカスするよう絞られ得る。例えば、潜在的な非一貫性は、意味推測手段によって特定された情報を用いて、一以上のタイトル候補と、そのタイトル候補に関連のある話題との間において特定され得る(すなわち、あるタイトル候補と関連のある話題を鑑みると、そのタイトル候補がEDの実際のタイトルである可能性は低そうである)。そして、視覚推測手段の対象は、この潜在的な非一貫性の周辺箇所(すなわち、一以上の部分又はセクション候補)に絞られ得る。
【0033】
また、視覚推測手段の対象は、非テキストオブジェクトにフォーカスするよう絞られ得る。例えば、非テキストオブジェクトは、当該非テキストオブジェクトを説明するキャプション(すなわち、非テキストオブジェクトのタイトル)と関連していることがある。こうしたキャプションは、また、ユーザーが非テキストオブジェクトを容易に特定し理解できるよう、非テキストオブジェクトの所定領域内に存在していることがある。以前にタイトル候補として特定されたものであって、非テキストオブジェクトのキャプションである可能性のあるものを探すため、視覚推測手段の対象は、この所定領域に絞られ得る。
【0034】
一以上の実施形態において、絞り込まれたインプットは、また、視覚分析を更に適用する前のEDを一部マスクすることに基づき決定され得る。これらのマスクされた箇所は、ステップ210Aから220までに行われた以前の視覚分析で、EDのタイトルではなさそうであると判断されたタイトル候補及びセクション候補を含み得る。EDの一部であって、マスクされないものについては、絞り込まれたインプットとしてその後の分析に供される。
【0035】
ステップ235では、ステップ230で特定された話題及び部分を再評価し絞り込む。ここでの再評価及び絞り込みは、ステップ230で再評価され絞り込まれた、フィルタリングされたタイトル候補及びセクション候補に基づき、視覚推測手段と意味推測手段の組み合わせを用いて行う。
【0036】
ステップ240では、ステップ230以降で絞り込まれたタイトル候補及びセクション候補を更に再評価し絞り込む。ここでの再評価及び絞り込みは、ステップ235で再評価され絞り込まれた話題及び部分に基づき、視覚推測手段と意味推測手段の組み合わせを用いて行う。
【0037】
一以上の実施形態において、再評価及び絞り込みを行った後にステップ230から240において生じ得る、フィルタリングされたタイトル候補及びセクション候補、並びに話題及び部分についての変化の度合いは、視覚及び意味推測手段が実行する分析の特性に依存し得る(すなわち、視覚及び意味推測手段の能力に依存する)。異なる種類の視覚及び意味推測手段を適用すれば、異なる結果が生じ得る。これについては以下、
図3Eの説明において詳細に論じる。
【0038】
ステップ245では、収束点(すなわち、これ以上絞り込みを行っても何も変化しない、かつ/又は異なる結果とならない点)に達したかどうか判断する。ステップ245の判断がNOであれば、処理はステップ235に戻り、タイトル候補及びセクション候補、並びに話題及び部分を、相互に基づいて更に絞り込む。
【0039】
ステップ245の判断がYESであれば、EDのマークアップ版(
図1を参照し上述)が生成される。EDのマークアップ版では、更なる再評価及び絞り込みが全て完了した後に残った全てのタイトル候補及びセクション候補が特定されている。
【0040】
図3Aから3Eは、一以上の実施形態に係る実行例である。
図3Aに示すように、電子文書(ED)(301)は、一行以上のテキストと非テキストオブジェクト(例えば、ワシの絵と円グラフ)を含む。ED(301)に対し、
図1と
図2を参照して上述した一以上の実施形態に係る反復処理が行われる。一以上の実施形態において、
図3Bから3Eに示される反復処理の結果は、ED(301)に対して行われた視覚及び意味推測手段の種類によって異なり得る。
【0041】
図3Bは、タイトル候補とセクション候補が最初に特定された(
図2のステップ210Aと210Bにおいて上述)後のED(301)を示す。
図3Bに見られるように、タイトル候補及びセクション候補は、実線の枠で囲まれることで特定される。視覚推測手段は、特殊なスタイル及びレイアウトを有するテキストをタイトル候補として特定し、ED(301)における区別可能な箇所をセクション候補として特定している。
【0042】
図3Cは、最初に特定されたタイトル候補及びセクション候補がフィルタリングされた(
図2のステップ215と220において上述)後のED(301)を示す。
図3Cに示すように、タイトル候補については何の変化もない(すなわち、ステップ215の結果、タイトル候補についての変化の度合いはゼロである)。他方で、セクション候補の枠のうち、2つの枠の境界を定める境界線が変化している。具体的には、2つの非テキストオブジェクトを含むセクション候補は、もはやタイトル候補の「Bald Eagle(ハクトウワシ)」を含んでいない。タイトル候補の「Bald Eagle(ハクトウワシ)」は、今度は、2つの非テキストオブジェクトを持つセクション候補の直下にあるセクション候補に含まれている。
【0043】
図3Dは、話題及び部分が最初に特定された(ステップ225において上述)後のED(301)を示す。
図3Dに見られるように、EDの特定された部分は重複することがある。特定された部分は、異なるスタイルの枠に囲まれて示される。枠のスタイルは、「Birds(鳥)」、「Eagle(ワシ)」、「Fish(魚)」、及び「Science(科学)」を含む特定された話題に基づくものである。ED(301)全体の話題は「Birds(鳥)」と特定されている。長・短・短のダッシュ線の枠は、ED(301)において「Eagle(ワシ)」の話題と関連付けられた部分を示す。点線の枠は、「Fish(魚)」の話題と関連付けられたED(301)の部分を示す。ダッシュ・点・点の線の枠は、「Science(科学)」の話題と関連付けられたED(301)の部分を示す。太い実線の枠は、ED(301)の部分であって、非テキストオブジェクトを含む部分を示すのに用いられているが、これら非テキストオブジェクトはどの話題とも関連付けられていない。
【0044】
図3Eは、収束点に達したと判断された(
図2のステップ230から245において上述)後の、ED(301)のマークアップ版である。
図3Eに見られるように、視覚及び意味分析の範囲が絞られ、ED(301)の別個の箇所にフォーカスしている。これは、非テキストオブジェクトがそれぞれタイトル候補を含む(すなわち、それぞれキャプションを含む)別々のセクション候補として特定されている箇所において、明らかである。
図3Bで示されていたセクション候補の中には、拡大して他のセクション候補をカバーしているものもある(すなわち、これらのセクションは、一以上のネストされた/階層的な小さいセクションを含む大きなセクションとなった)。また、最上位のセクション候補以外のセクション候補は、それぞれ少なくとも一つのタイトル候補を含んで示されている。ユーザーは、直接目視確認することにより、ED(301)の全てのタイトルとセクションが正確に特定されていることがわかるだろう。
【0045】
本発明の実施形態は、使用するプラットフォームにかかわらず、事実上あらゆる種類のコンピューティングシステムに実装できる。例えば、コンピューティングシステムは、一以上の可搬装置(例えば、ノート型コンピューター、スマートフォン、パーソナルデジタルアシスタント、タブレット型コンピューター又はその他の可搬装置)、デスクトップコンピューター、サーバー、サーバーシャーシにおけるブレード、又は本発明の一以上の実施形態を実施するための最低限の処理能力、メモリー及び入出力装置を少なくとも備えるその他の種類の一以上のコンピューティング装置であってよい。例えば
図4に示すように、コンピューティングシステム(400)は、一以上のコンピュータープロセッサー(402)、関連するメモリー(404)(例えば、ランダムアクセスメモリー(RAM)、キャッシュメモリー、フラッシュメモリー等)、一以上の記憶装置(406)(例えば、ハードディスク、コンパクトディスク(CD)ドライブやデジタル多用途ディスク(DVD)ドライブといった光ドライブ、フラッシュメモリースティック等)、その他多くの要素及び機能を備え得る。コンピュータープロセッサー(402)は、指示を処理するための集積回路でもよい。例えば、コンピュータープロセッサーは、一以上のコア又はプロセッサーのマイクロコアでもよい。また、コンピューティングシステム(400)は、タッチスクリーン、キーボード、マウス、マイク、タッチパッド、電子ペン、又はその他の種類の入力装置といった、一以上の入力装置(410)を備えてよい。また、コンピューティングシステム(400)は、スクリーン(例えば、液晶ディスプレイ(LCD)、プラズマディスプレイ、タッチスクリーン、ブラウン管(CRT)モニター、プロジェクタ、又はその他の表示装置)、プリンター、外部記憶装置、又はその他の出力装置といった、一以上の出力装置(408)を備えてよい。出力装置のうち一以上が入力装置と同じでもよいし、異なってもよい。コンピューティングシステム(400)は、ネットワークインターフェース接続(図示なし)を介してネットワーク(412)(例えば、ローカルエリアネットワーク(LAN)、インターネット等の広域ネットワーク(WAN)、モバイルネットワーク、又はその他の種類のネットワーク)に接続されてよい。入力及び出力装置は、ローカルに又はリモートに(例えば、ネットワーク(412)を介して)コンピュータープロセッサー(402)、メモリー(404)及び記憶装置(406)に接続されてよい。コンピューティングシステムには多くの異なる種類があり、前述の入力及び出力装置は他の形態をとってもよい。
【0046】
本発明の実施形態を実施するためのコンピューター読取り可能なプログラムコードの形態をとるソフトウェア指示は、その全体又は一部が、一時的に又は恒久的に、CD、DVD、記憶装置、ディスケット、テープ、フラッシュメモリー、物理メモリー、又はその他のコンピューター読取り可能な記憶媒体といった非一時的なコンピューター読取り可能な媒体に記憶されてよい。具体的には、ソフトウェア指示は、プロセッサーによって実行された際に本発明の実施形態を実施するよう構成された、コンピューター読取り可能なプログラムコードに相当し得る。
【0047】
更に、前述のコンピューティングシステム(400)の構成要素は、そのうち一つ以上が遠隔に配され、ネットワーク(412)を介してその他の構成要素と接続されてもよい。また、本発明の一以上の実施形態は、複数のノードを有する分散システムに実装されてもよく、本発明の各部は、分散システム内の異なるノード上に配されてもよい。本発明の一実施形態では、ノードは別個のコンピューティング装置に相当する。あるいは、ノードは関連する物理メモリーを有するコンピュータープロセッサーに相当してもよい。あるいは、ノードは、共有メモリー及び/又は情報源を有するコンピュータープロセッサー又はコンピュータープロセッサーのマイクロコアに相当してもよい。
【0048】
本発明の一以上の実施形態は、以下のうち一以上の効果を有し得る:タグを含まない一以上の電子文書のタイトル及びセクションを正確に特定することができる;電子文書の不正確にタグ付けされたタイトル及びセクションを特定することができる;ユーザーの介入なしに、上記の特定を行うことができる;等。
【0049】
限られた数の実施形態に関して本発明を説明したが、本開示の恩恵に浴する当業者であれば、ここに開示された本発明の範囲から逸脱しない他の実施形態が考案可能であると分かるだろう。したがって、本発明の範囲は、添付の特許請求の範囲によってのみ限定されるものである。