特許第5930496号(P5930496)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ペキン ユニバーシティ ファウンダー グループ カンパニー リミテッドの特許一覧 ▶ ペキン ファウンダー アパビ テクノロジー リミテッドの特許一覧

特許5930496レイアウトファイルにおける構造化情報の取得方法及び装置
<>
  • 特許5930496-レイアウトファイルにおける構造化情報の取得方法及び装置 図000002
  • 特許5930496-レイアウトファイルにおける構造化情報の取得方法及び装置 図000003
  • 特許5930496-レイアウトファイルにおける構造化情報の取得方法及び装置 図000004
  • 特許5930496-レイアウトファイルにおける構造化情報の取得方法及び装置 図000005
  • 特許5930496-レイアウトファイルにおける構造化情報の取得方法及び装置 図000006
  • 特許5930496-レイアウトファイルにおける構造化情報の取得方法及び装置 図000007
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】5930496
(24)【登録日】2016年5月13日
(45)【発行日】2016年6月8日
(54)【発明の名称】レイアウトファイルにおける構造化情報の取得方法及び装置
(51)【国際特許分類】
   G06F 17/27 20060101AFI20160526BHJP
   G06F 17/22 20060101ALI20160526BHJP
【FI】
   G06F17/27 680
   G06F17/22 658
【請求項の数】10
【全頁数】13
(21)【出願番号】特願2014-520525(P2014-520525)
(86)(22)【出願日】2012年12月7日
(65)【公表番号】特表2014-527660(P2014-527660A)
(43)【公表日】2014年10月16日
(86)【国際出願番号】CN2012086137
(87)【国際公開番号】WO2013083067
(87)【国際公開日】20130613
【審査請求日】2014年1月17日
(31)【優先権主張番号】201110409463.X
(32)【優先日】2011年12月9日
(33)【優先権主張国】CN
(73)【特許権者】
【識別番号】507230289
【氏名又は名称】ペキン ユニバーシティ ファウンダー グループ カンパニー リミテッド
【氏名又は名称原語表記】PEKING UNIVERSITY FOUNDER GROUP CO.,LTD.
(73)【特許権者】
【識別番号】513291654
【氏名又は名称】ペキン ファウンダー アパビ テクノロジー リミテッド
【氏名又は名称原語表記】BEIJING FOUNDER APABI TECHNOLOGY LIMITED
(74)【代理人】
【識別番号】100089196
【弁理士】
【氏名又は名称】梶 良之
(74)【代理人】
【識別番号】100104226
【弁理士】
【氏名又は名称】須原 誠
(72)【発明者】
【氏名】ドン ニン
(72)【発明者】
【氏名】ファン ウェンジュアン
(72)【発明者】
【氏名】ザン バオリアン
【審査官】 長 由紀子
(56)【参考文献】
【文献】 特開平11−232439(JP,A)
【文献】 特開2001−265762(JP,A)
【文献】 特開2003−288334(JP,A)
【文献】 特開2009−134741(JP,A)
【文献】 南野 朋之 外3名,blogの自動収集と監視,情報処理学会研究報告,日本,社団法人情報処理学会,2004年 3月 5日,第2004巻第23号,p.129-136
(58)【調査した分野】(Int.Cl.,DB名)
G06F 17/20−28
(57)【特許請求の範囲】
【請求項1】
レイアウトファイルの構造化情報の取得装置により実行される方法であって、
前記レイアウトファイルのディレクトリデータから、前記レイアウトファイルにおける現在のディレクトリエントリに対応する開始ページ番号情報を特定する特定ステップと、
前記特定ステップにおいて特定された開始ページ番号情報に対応したページの第1の文章内容を、内容属性情報に応じて少なくとも1つのブロック構造文字に分割する分割ステップと、
前記分割ステップにおいて分割されたブロック構造文字の各々において前記現在のディレクトリエントリの名称文字にマッチングする第1のブロック構造文字を検索すると共に、前記第1の文章内容における前記第1のブロック構造文字の位置を示す第1位置情報を取得するマッチングステップと、
前記マッチングステップにおいて取得された前記第1位置情報に基づいて前記現在のディレクトリエントリの開始位置を示す情報及び前記現在のディレクトリエントリの1つ前のディレクトリエントリの終了位置を示す情報を取得する取得ステップと、
を含むことを特徴とする方法。
【請求項2】
前記分割ステップにおいては、前記レイアウトファイルにおけるディレクトリエントリ文字と本文文字のフォントサイズ及びフォーマットの少なくともいずれか、並びに、前記レイアウトファイルにおけるディレクトリと本文との間の第1の行間隔と本文間の第2の行間隔によって、前記第1の文章内容を少なくとも1つのブロック構造文字に分割し、
前記ブロック構造文字は段落構造文字又は行構造文字を含むことを特徴とする請求項1に記載の方法。
【請求項3】
前記マッチングステップにおいては、
前記分割ステップにおいて分割されたブロック構造文字の各々において、前記現在のディレクトリエントリの名称文字中の各文字にマッチングするブロック構造文字があるか否かを検索し、
マッチングするブロック構造文字がある場合に、検索されたブロック構造文字を前記第1のブロック構造文字として特定し、
マッチングするブロック構造文字がない場合に、正規表現式を用い、前記分割ステップにおいて分割されたブロック構造文字の各々において前記現在のディレクトリエントリの名称文字にマッチングするブロック構造文字があるか否かを検索し、マッチングするブロック構造文字がある場合に、検索されたブロック構造文字を前記第1のブロック構造文字として特定し、マッチングするブロック構造文字がない場合に、1文字ずつのマッチングにより、前記分割ステップにおいて分割されたブロック構造文字の各々と前記現在のディレクトリエントリの名称文字との間のマッチング度を算出し、前記マッチング度が設定された閾値になった時に、前記マッチング度に対応するブロック構造文字を前記第1のブロック構造文字として特定することを特徴とする請求項1に記載の方法。
【請求項4】
前記分割ステップにおいて分割されたブロック構造文字の各々において前記現在のディレクトリエントリの名称文字中の各文字にマッチングするブロック構造文字があるか否かを検索する前に、前記分割ステップにおいて分割されたブロック構造文字の各々及び前記現在のディレクトリエントリの名称文字を全角文字又は半角文字として統合することを特徴とする請求項3に記載の方法。
【請求項5】
前記取得ステップにおいては、
前記第1の位置情報が前記第1の文章内容における最後のブロック構造文字の位置を示す場合に、前記開始ページ番号情報に対応する次のページの第2の文章内容を文字の属性情報に応じて少なくとも1つのブロック構造文字に分割すると共に、前記第1の位置情報及び前記第2の文章内容における最初のブロック構造文字の位置を示す情報に基づいて、前記現在のディレクトリエントリの開始位置を示す情報を特定し、
前記第1の位置情報が前記第1の文章内容における最初のブロック構造文字の位置を示す場合に、前記開始ページ番号情報に対応する前のページの第3の文章内容を文字の属性情報に応じて少なくとも1つのブロック構造文字に分割すると共に、前記第1の位置情報及び前記第3の文章内容における最後のブロック構造文字の位置を示す情報に基づいて、前記1つ前のディレクトリエントリの終了位置を示す情報を特定することを特徴とする請求項1に記載の方法。
【請求項6】
レイアウトファイルの構造化情報の取得装置であって、
前記レイアウトファイルのディレクトリデータから、前記レイアウトファイルにおける現在のディレクトリエントリに対応する開始ページ番号情報を特定する特定手段と、
前記特定手段によって特定された開始ページ番号情報に対応したページの第1の文章内容を、内容属性情報に応じて少なくとも1つのブロック構造文字に分割する分割手段と、
前記分割手段によって分割されたブロック構造文字の各々において前記現在のディレクトリエントリの名称文字にマッチングする第1のブロック構造文字を検索すると共に、前記第1の文章内容における前記第1のブロック構造文字の位置を示す第1位置情報を取得するマッチング手段と、
前記マッチング手段によって取得された前記第1位置情報に基づいて前記現在のディレクトリエントリの開始位置を示す情報及び前記現在のディレクトリエントリの1つ前のディレクトリエントリの終了位置を示す情報を取得する取得手段と、
を備えることを特徴とする装置。
【請求項7】
前記分割手段は、前記レイアウトファイルにおけるディレクトリエントリ文字と本文文字のフォントサイズ及びフォーマットの少なくともいずれか、並びに、前記レイアウトファイルにおけるディレクトリと本文との間の第1の行間隔と本文間の第2の行間隔によって、前記第1の文章内容を少なくとも1つのブロック構造文字に分割し、
前記ブロック構造文字は段落構造文字又は行構造文字を含むことを特徴とする請求項6に記載の装置。
【請求項8】
前記マッチング手段は、
前記分割手段によって分割されたブロック構造文字の各々において、前記現在のディレクトリエントリの名称文字中の各文字にマッチングするブロック構造文字があるか否かを検索し、
マッチングするブロック構造文字がある場合に、検索されたブロック構造文字を前記第1のブロック構造文字として特定し、
マッチングするブロック構造文字がない場合に、正規表現式を用い、前記分割手段によって分割されたブロック構造文字の各々において前記現在のディレクトリエントリの名称文字にマッチングするブロック構造文字があるか否かを検索し、マッチングするブロック構造文字がある場合に、検索されたブロック構造文字を前記第1のブロック構造文字として特定し、マッチングするブロック構造文字がない場合に、1文字ずつのマッチングにより、前記分割手段によって分割されたブロック構造文字の各々と前記現在のディレクトリエントリの名称文字との間のマッチング度を算出し、前記マッチング度が設定された閾値になった時に、前記マッチング度に対応するブロック構造文字を前記第1のブロック構造文字として特定することを特徴とする請求項6に記載の装置。
【請求項9】
前記マッチング手段は、さらに、前記分割手段によって分割されたブロック構造文字の各々及び前記現在のディレクトリエントリの名称文字を全角文字又は半角文字として統合することを特徴とする請求項8に記載の装置。
【請求項10】
前記取得手段は、
前記第1の位置情報が前記第1の文章内容における最後のブロック構造文字の位置を示す場合に、前記開始ページ番号情報に対応する次のページの第2の文章内容を文字の属性情報に応じて少なくとも1つのブロック構造文字に分割すると共に、前記第1の位置情報及び前記第2の文章内容における最初のブロック構造文字の位置を示す情報に基づいて、前記現在のディレクトリエントリの開始位置を示す情報を特定し、
前記第1の位置情報が前記第1の文章内容における最初のブロック構造文字の位置を示す場合に、前記開始ページ番号情報に対応する前のページの第3の文章内容を文字の属性情報に応じて少なくとも1つのブロック構造文字に分割すると共に、前記第1の位置情報及び前記第3の文章内容における最後のブロック構造文字の位置を示す情報に基づいて、前記1つ前のディレクトリエントリの終了位置を示す情報を特定することを特徴とする請求項9に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理の技術分野に関し、特にレイアウトファイルにおける構造化情報の取得方法及び装置に関する。
【背景技術】
【0002】
書籍のレイアウトファイルの情報化管理では、それぞれの書籍のレイアウトファイルを構造化し、それぞれのレイアウトファイルの構造化情報を取得して対応するディレクトリデータを形成する必要がある。従来の形成済みの書籍のレイアウトファイルのディレクトリデータにおいて、一般的に各ディレクトリエントリの名称文字及び各ディレクトリエントリの開始位置のみ含むが、各ディレクトリエントリの終了位置、及び各ディレクトリエントリの名称の文章における具体的な領域を含まないものであった。
【0003】
このように、従来の書籍のレイアウトファイルの構造化情報が不完全なものであり、従来のディレクトリデータに基づいて各ディレクトリエントリに対応する具体的な開始及び終了位置を特定することができなかった。従って、書籍のレイアウトファイルの具体的なディレクトリエントリのレイアウト及びストリーミングファイルを単独に提供することができず、即ち、多様化閲覧の需要を満足することができなかった。
【0004】
従って、それぞれの書籍のレイアウトファイルを構造化する工程において、それぞれのレイアウトファイルの比較的完全な構造化情報を取得する必要がある。一般的に、書籍のレイアウトファイルを手動で構造化し、即ち、書籍のレイアウトファイルにおけるそれぞれのディレクトリエントリの文章内容を手動で閲覧解析し、その後、閲覧した文章内容に基づいて必要な構造化データを取得する。大量の書籍のレイアウトファイルの情報化管理を行う際に、手動上の制限、例えば、理解能力や体力が限られているため、必然的に多少のエラーが生じる。かつ、手動による速度も遅いため、構造化情報を取得する正確率及び速度にも影響を与えている。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の課題は、レイアウトファイルの情報化管理におけるレイアウトファイルの構造化速度を向上させるために、レイアウトファイルにおける構造化情報を取得する方法及び装置を提供することにある。
【課題を解決するための手段】
【0006】
本発明において、レイアウトファイルにおける構造化情報を取得する方法は、レイアウトファイルの構造化情報の取得装置により実行される方法であって、前記レイアウトファイルのディレクトリデータから、前記レイアウトファイルにおける現在のディレクトリエントリに対応する開始ページ番号情報を特定する特定ステップと、前記特定ステップにおいて特定された開始ページ番号情報に対応したページの第1の文章内容を、内容属性情報に応じて少なくとも1つのブロック構造文字に分割する分割ステップと、前記分割ステップにおいて分割されたブロック構造文字の各々において前記現在のディレクトリエントリの名称文字にマッチングする第1のブロック構造文字を検索すると共に、前記第1の文章内容における前記第1のブロック構造文字の位置を示す第1位置情報を取得するマッチングステップと、前記マッチングステップにおいて取得された前記第1位置情報に基づいて前記現在のディレクトリエントリの開始位置を示す情報及び前記現在のディレクトリエントリの1つ前のディレクトリエントリの終了位置を示す情報を取得する取得ステップとを含む。
【0007】
本発明において、レイアウトファイルにおける構造化情報を取得する装置は、前記レイアウトファイルのディレクトリデータから、前記レイアウトファイルにおける現在のディレクトリエントリに対応する開始ページ番号情報を特定する特定手段と、前記特定手段によって特定された開始ページ番号情報に対応したページの第1の文章内容を、内容属性情報に応じて少なくとも1つのブロック構造文字に分割する分割手段と、前記分割手段によって分割されたブロック構造文字の各々において前記現在のディレクトリエントリの名称文字にマッチングする第1のブロック構造文字を検索すると共に、前記第1の文章内容における前記第1のブロック構造文字の位置を示す第1位置情報を取得するマッチング手段と、前記マッチング手段によって取得された前記第1位置情報に基づいて前記現在のディレクトリエントリの開始位置を示す情報及び前記現在のディレクトリエントリの1つ前のディレクトリエントリの終了位置を示す情報を取得する取得手段とを備える。
【発明の効果】
【0008】
本発明では、開始ページ番号情報に対応したページの第1の文章内容を少なくとも1つのブロック構造文字に分割し、現在のディレクトリエントリの名称文字にマッチングする第1のブロック構造文字を検索すると共に、前記第1の文章内容における第1のブロック構造文字の位置を示す第1の位置情報を取得し、その後、取得された第1の位置情報に基づいて現在のディレクトリエントリの開始位置を示す情報及び現在のディレクトリエントリの1つ前のディレクトリエントリの終了位置を示す情報を特定する。そうすると、特定ページの文章内容に対して解析及びマッチングさえ行えば、レイアウトファイルの構造化情報を得ることができるため、レイアウトファイルの構造化速度を速めることが可能となる。
【図面の簡単な説明】
【0009】
図1】本発明の実施例におけるレイアウトファイルの構造化情報を取得するフローチャートである。
図2】本発明の実施例におけるマッチング検索のフローチャートである。
図3】本発明の実施例におけるレイアウトファイルのディレクトリデータ情報の概略図である。
図4】本発明の実施例におけるレイアウトファイルのディレクトリデータ情報の更新後の概略図である。
図5】本発明の実施例における構造化されたレイアウトファイルデータ情報の概略図である。
図6】本発明の実施例におけるレイアウトファイルの構造化情報の取得装置の構造図である。
【発明を実施するための形態】
【0010】
図1に示すように、本発明の実施例におけるレイアウトファイルの構造化情報の取得工程は下記のステップを含む。
【0011】
ステップ101では、現在のディレクトリエントリの開始ページ番号情報を特定する。
【0012】
レイアウトファイルの情報化管理中は、レイアウトファイルのディレクトリデータ情報がロードされている。ここで、ディレクトリデータ情報は、ディレクトリエントリの階層関係と、ディレクトリエントリの名称文字と、ディレクトリエントリに対応する開始ページとを含む。当該ディレクトリデータ情報は、XMLファイル形式、他の自ら定義するTXTファイル形式、EXCELファイル形式等で表現されてよい。
【0013】
このように、レイアウト及びストリーミング閲覧を単独に提供する必要のある具体的なディレクトリエントリを現在のディレクトリエントリとして特定するか、若しくは、ディレクトリデータ情報の中の何れか1つのディレクトリエントリを現在のディレクトリエントリとして特定すると共に、その中から当該現在のディレクトリエントリに対応する開始ページを検索する。
【0014】
本発明の実施例では、構造化情報を取得する正確率を高めるべく、現在のディレクトリエントリに対応する開始ページを特定する前に、ロードされるレイアウトファイルのディレクトリデータ情報の有効性、例えば、ディレクトリの階層関係や、ディレクトリエントリの開始ページの有効性などなどについて解析することができる。
【0015】
ステップ102では、開始ページ番号情報に対応したページの第1の文章内容を、内容属性情報に応じて少なくとも1つのブロック構造文字に分割する。
【0016】
レイアウトファイルは一般的に共通の特徴を有し、例えば、文章中のディレクトリエントリ文字と文章中の本文の文字のフォントサイズやフォーマットが大いに相違しており、ディレクトリと本文間の第1の行間隔と本文間の第2の行間隔も大いに相違している。従って、本発明の実施例では、ディレクトリエントリ文字と本文文字のフォントサイズ及びフォーマットの少なくともいずれか、並びに、ディレクトリと本文間の第1の行間隔と本文間の第2の行間隔によって、第1の文章内容を1つ又は複数のブロック構造文字に分割することができる。
【0017】
内容属性情報は文字情報及び行間隔情報を含む。また、本発明の実施例において、ブロック構造文字は、段落構造文字又は行構造文字を含む。ディレクトリエントリ文字と本文文字のフォントサイズ及びフォーマットの少なくともいずれか、並びに、ディレクトリと本文間の第1の行間隔と本文間の第2の行間隔によって、自動的に段落又は行をなすという方式によって、第1の文章内容を対応する段落構造文字又は行構造文字に分割することができる。
【0018】
ステップ103では、各ブロック構造文字において、現在のディレクトリエントリの名称文字にマッチングする第1のブロック構造文字を検索する。
【0019】
本発明の実施例では、設定されたマッチングモジュールを利用して、各ブロック構造文字において現在のディレクトリエントリの名称文字にマッチングする第1のブロック構造文字を検索することができる。マッチングモジュールが多種多様であるため、マッチング検索の工程も多様性に富んでいる。
【0020】
ステップ104では、第1のブロック構造文字の第1の文章内容における第1の位置情報を取得する。
【0021】
現在のディレクトリエントリの名称文字にマッチングする第1のブロック構造文字が見つかったので、第1のブロック構造文字の第1の文章内容における第1の位置情報を取得することができる。ここで、第1の位置情報は、所属するページのページ情報、座標情報、横方向の開始ライン座標情報、及び横方向の終止ライン座標情報のうちの1種以上を含む。
【0022】
ステップ105では、第1の位置情報に基づいて現在のディレクトリエントリの開始位置情報及び現在のディレクトリエントリの1つ前のディレクトリエントリの終了位置情報を取得する。
【0023】
一般的に、第1の位置情報を現在のディレクトリエントリの開始位置情報として特定し、第1のブロック構造文字の前のブロック構造文字の位置情報を1つ前のディレクトリエントリの終了位置情報として特定することができる。
【0024】
しかし、第1の位置情報が第1の文章内容の終了ブロック構造文字の位置情報である場合に、開始ページ番号情報に対応する次のページの第2の文章内容を文字の属性情報に応じて少なくとも1つのブロック構造文字に分割すると共に、第1の位置情報及び第2の文章内容の開始ブロック構造文字の位置情報に基づいて、現在のディレクトリエントリの開始位置情報を特定し、即ち、両者の位置情報を組み合わせて現在のディレクトリエントリの開始位置情報を特定する。
【0025】
第1の位置情報が第1の文章内容の開始ブロック構造文字の位置情報である場合に、開始ページ番号情報に対応する前のページの第3の文章内容を文字の属性情報に応じて少なくとも1つのブロック構造文字に分割すると共に、第1の位置情報及び第3の文章内容の終了ブロック構造文字の位置情報に基づいて、現在のディレクトリエントリの1つ前のディレクトリエントリの終了位置情報を特定する。同様に、両者の位置情報を組み合わせて現在のディレクトリエントリの開始位置情報を特定する。
【0026】
ここまでのステップで、現在のディレクトリエントリに対応する構造化情報の取得が完了されている。このとき、レイアウトファイルのディレクトリデータ情報を更新することができる。即ち、本発明の実施例は、さらに、下記のステップを含む。
【0027】
ステップ106では、現在のディレクトリエントリの開始位置情報及び1つ前のディレクトリエントリの終了位置情報に基づいて、レイアウトファイルのディレクトリエントリデータ情報を更新する。
【0028】
ここで、特定された現在のディレクトリエントリの開始位置情報及び1つ前のディレクトリエントリの終了位置情報を、ディレクトリデータ情報に対応するXMLファイル中に付加してもよい。
【0029】
本発明の実施例では、さらに、あらゆるディレクトリエントリに対応する構造化情報の取得を終えた後、レイアウトファイルのディレクトリデータ情報を再び更新することができる。
【0030】
このように、開始ページ番号情報に対応したページの第1の文章内容、または開始ページ番号情報に対応したページの第1の文章内容及び開始ページ番号情報に対応する次のページの第2の文章内容、または開始ページ番号情報に対応したページの第1の文章内容及び開始ページ番号情報に対応する前のページの第3の文章内容に対して解析及びマッチングさえ行えば、ディレクトリエントリに対応する構造化情報を取得することができる。つまり、特定ページの文章内容に対して解析及びマッチングさえ行えば、レイアウトファイルの構造化情報を得ることができる。そのため、レイアウトファイルの構造化速度を速めることが可能となる。
【0031】
上記のステップ103においては、マッチングモジュールが多種多様であるため、各ブロック構造文字において現在のディレクトリエントリの名称文字にマッチングする第1のブロック構造文字を検索するマッチング検索の工程も多様性を有している。例えば、各ブロック構造文字において現在のディレクトリエントリの名称文字中の各文字にマッチングするブロック構造文字があるか否かを直接的に検索し、レイアウトファイルの品質が高ければ、この方法によりマッチング検索の工程を完了することができる。本発明の実施例では、マッチングの正確率を向上させるために、別のマッチングモジュールを追加することもできる。図2に示すように、具体的な検索工程は下記のステップを含む。
【0032】
ステップ201では、各ブロック構造文字において、現在のディレクトリエントリの名称文字中の各文字にマッチングするブロック構造文字があるか否かを検索し、マッチングするブロック構造文字がある場合に、ステップ206を実行し、マッチングするブロック構造文字がない場合に、ステップ202を実行する。
【0033】
ステップ202では、正規表現式を用い、各ブロック構造文字において、現在のディレクトリエントリの名称文字にマッチングするブロック構造文字があるか否かを検索し、マッチングするブロック構造文字がある場合に、ステップ206を実行し、マッチングするブロック構造文字がない場合に、ステップ203を実行する。
【0034】
ここで、ステップ201ではマッチングの要求を満足できなかったので、各ブロック構造文字及び現在のディレクトリエントリの名称文字のうちに、マッチングに影響を与える恐れのある文字、例えば、ブランク、修飾符号及びマッチングに影響を与える恐れのあるほかの文字を削除することができる。
【0035】
その後、処理済の文字を設定された正規表現式に従ってマッチングを行う。正規表現式とは、ある様態で1つの文字列をマッチングするための公式である。当該公式を用いてマッチングを行い、現在のディレクトリエントリの名称文字にマッチングするブロック構造文字を得る。
【0036】
ステップ203では、1文字ずつのマッチングにより、各ブロック構造文字と現在のディレクトリエントリの名称文字との間のマッチング度を算出する。
【0037】
例えば、1つのブロック構造文字と前のディレクトリエントリの名称文字とは、半分の文字が同じであれば、マッチング度が50%である。或いは、他の割合を採用してもよい。
【0038】
ステップ204では、マッチング度が閾値以上であるか否かを判定し、マッチング度が閾値以上である場合に、ステップ205を実行し、マッチング度が閾値以上でない場合に、マッチング工程が失敗となる。ここで、様々なロットのレイアウトファイルの組版の実状に応じて閾値を調節することで、高いマッチング度を図ることができる。
【0039】
ステップ205では、マッチング度に対応するブロック構造文字を第1のブロック構造文字として特定する。
【0040】
ステップ206では、検索されたブロック構造文字を第1のブロック構造文字として特定する。
【0041】
以上のステップによって、現在のディレクトリエントリの名称文字にマッチングするブロック構造文字を基本的に検索することが可能である。本発明の実施例では、ステップ201の前に、各ブロック構造文字及び現在のディレクトリエントリの名称文字を全角文字か半角文字に統合させる必要がある。そうすると、後続のマッチング検索を容易に行うことができる。
【0042】
以下、明細書の図面を参照して本発明の実施例について更に詳細に説明する。
【0043】
本実施例では、レイアウトファイルのディレクトリデータ情報は図3に示す如くであり、現在のディレクトリエントリの名称文字が「第二章 裁定取引なし原理」である例について説明する。当該レイアウトファイルの構造化情報の取得工程は下記のステップを含む。
【0044】
現在のディレクトリエントリに対応する開始ページ番号情報が「16]であると特定する。その後、ページ16における第1の文章内容を内容属性情報ごとに少なくとも1つのブロック構造文字に分割し、各ブロック構造文字において、現在のディレクトリエントリの名称文字にマッチングする第1のブロック構造文字を検索すると共に第1のブロック構造文字の第1の文章内容における第1の位置情報を取得する。ここで、第1の位置情報は、"ebookPageNum="16" left="1740" top="396" right="3016" buttom="587" startVerticalPos="396" endVerticalPos="4082"を含む。
【0045】
第1の位置情報は第1の文章内容の開始ブロック構造文字の位置情報であるので、ページ15中の第3の文章内容を文字の属性情報に応じて少なくとも1つのブロック構造文字に分割すると共に第3の文章内容の終了ブロック構造文字の位置情報を取得する。終了ブロック構造文字は現在のディレクトリエントリの名称文字とマッチングしないので、該第3の文章内容の終了ブロック構造文字の位置情報は1つ前のディレクトリエントリの終了位置情報である。例えば、当該情報の中に、ebookEndLPageNum=15、endvertiempos=2341などを含む。第1の位置情報は現在のディレクトリエントリの開始位置情報である。例えば、当該情報の中に、ebookPageNum="16" left="1740" top="396" right="3016" buttom="587" startVerticalPos="396" endVerticalPos="4082"を含む。
【0046】
開始ページ番号情報に対応する次のページの第2の文章内容に対する解析及びマッチング工程はこれと類似するので、ここでは詳しい説明を省略する。
【0047】
以上の工程により、各ディレクトリエントリに対して構造化情報を取得し、最後に取得された構造化情報に基づいて最初のレイアウトファイルに対するディレクトリデータ情報を更新する。更新済みの構造化されたディレクトリデータ情報は図4に示す如くである。
【0048】
本発明の実施例では、図5に示すように、ディレクトリエントリに対応する文章内容を、更新済みの構造化されたディレクトリデータ情報に対応するディレクトリエントリに追加して、構造化されたレイアウトファイルデータ情報を形成してもよい。そうすると、システムは構造化対象となるあらゆるレイアウトファイルデータ情報を自動的に走査し、それぞれに文章化処理を行って出力することができるため、書籍のレイアウトファイルの具体的なディレクトリエントリのレイアウト及びストリーミング閲覧形式を単独に提供することが可能となる。
【0049】
上述したレイアウトファイルの構造化情報の取得方法によれば、レイアウトファイルにおける構造化情報の取得装置を構成することができる。図6に示すように、当該装置は、特定手段100と、分割手段200と、マッチング手段300と、取得手段400とを備える。
特定手段100は、現在のディレクトリエントリに対応する開始ページ番号情報を特定する。
分割手段200は、開始ページ番号情報に対応したページの第1の文章内容を、内容属性情報に応じて少なくとも1つのブロック構造文字に分割する。
マッチング手段300は、各ブロック構造文字において現在のディレクトリエントリの名称文字にマッチングする第1のブロック構造文字を検索すると共に、第1のブロック構造文字の第1の文章内容における第1位置情報を取得する。
取得手段400は、第1位置情報に基づいて現在のディレクトリエントリの開始位置情報及び現在のディレクトリエントリの1つ前のディレクトリエントリの終了位置情報を取得する。
【0050】
ここで、分割手段200は、ディレクトリエントリ文字と本文文字のフォントサイズ及びフォーマットの少なくともいずれか、並びに、ディレクトリと本文間の第1の行間隔と本文間の第2の行間隔によって、第1の文章内容を少なくとも1つのブロック構造文字に分割する。ここで、ブロック構造文字は段落構造文字又は行構造文字を含む。
【0051】
マッチング手段300は、各ブロック構造文字において、現在のディレクトリエントリの名称文字中の各文字にマッチングするブロック構造文字があるか否かを検索し、マッチングするブロック構造文字がある場合に、検索されたブロック構造文字を第1のブロック構造文字として特定し、マッチングするブロック構造文字がない場合に、正規表現式を用い、各ブロック構造文字において現在のディレクトリエントリの名称文字にマッチングするブロック構造文字があるか否かを検索し、マッチングするブロック構造文字がある場合に、検索されたブロック構造文字を第1のブロック構造文字として特定し、マッチングするブロック構造文字がない場合に、1文字ずつのマッチングにより、各ブロック構造文字と現在のディレクトリエントリの名称文字との間のマッチング度を算出し、マッチング度が設定された閾値になった時に、マッチング度に対応するブロック構造文字を第1のブロック構造文字として特定する。
【0052】
マッチング手段300は、さらに、各ブロック構造文字及び現在のディレクトリエントリの名称文字を全角文字又は半角文字として統合する。
【0053】
取得手段400は、一般的に、第1の位置情報を現在のディレクトリエントリの開始位置情報として特定し、第1のブロック構造文字の前のブロック構造文字の位置情報を現在のディレクトリエントリの1つ前のディレクトリエントリの終了位置情報として特定する。
【0054】
取得更新手段400は、さらに、具体的に、第1の位置情報が第1の文章内容の終了ブロック構造文字の位置情報である場合に、開始ページ番号情報に対応する次のページの第2の文章内容を文字の属性情報に応じて少なくとも1つのブロック構造文字に分割すると共に、第1の位置情報及び第2の文章内容の開始ブロック構造文字の位置情報に基づいて、現在のディレクトリエントリの開始位置情報を特定し、第1の位置情報が第1の文章内容の開始ブロック構造文字の位置情報である場合に、開始ページ番号情報に対応する前のページの第3の文章内容を文字の属性情報に応じて少なくとも1つのブロック構造文字に分割すると共に、第1の位置情報及び第3の文章内容の終了ブロック構造文字の位置情報に基づいて、現在のディレクトリエントリの1つ前のディレクトリエントリの終了位置情報を特定する。
【0055】
本発明の実施例によると、特定ページの文章内容に対して解析及びマッチングさえ行えば、レイアウトファイルの構造化情報を得ることができるため、レイアウトファイルの構造化速度を速めることが可能となる。
【0056】
また、各ブロック構造文字において、現在のディレクトリエントリの名称文字にマッチングする第1のブロック構造文字を検索する場合に、マッチング方式が多種多様であり、1つのマッチング方式が当たらなくとも、さらに複数種のマッチング方式が存在しているため、マッチング検索の成功率が高い。
【0057】
大量のレイアウトファイルデータの構造化の製造工程において、設定されたマッチングモジュールに基づいて解析及びマッチングを行うことにより、人工による介入がなくても大量に解析結果を取得することが可能となるため、大量の体力を節約することができる。
【0058】
本発明の精神及び範囲から逸脱しないかぎり、当業者が本発明に対して様々な変更や変形を行うことができることは明らかである。これらの変更や変形は本発明の特許請求の範囲及び均等的な範囲に該当すれば、本発明の範囲内に含まれる。
図3
図4
図5
図1
図2
図6