【文献】
田中 秀明,電子書籍・スマートフォン 技術解説 電子書籍フォーマット XMDF v3.0について,シャープ技報,日本,シャープ株式会社,2011年 2月10日,第102号,p.17-21
(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0019】
本発明に係る実施形態を説明する前に、まず本明細書における「関連画像」に含まれる「テーマ画像」と「コンテンツ画像」の定義について説明する。
【0020】
「テーマ画像」とは雑誌記事や書籍記事の電子文書に含まれる写真やイラスト等の画像のことであり、電子文書についてのテーマを表す画像のことである。このテーマ画像は、本明細書では、記事本文などのような電子文書のコンテンツを構成する「コンテンツ画像」とは明確に区別される。コンテンツ画像は電子文書のコンテンツの一要素として読者に視覚認識されるべきものである。一方、テーマ画像は記事本文などのような電子文書のコンテンツの印象やイメージを象徴する補完的役割を担うものである。テーマ画像の定義としては例えば次の2つが挙げられる。
(1)その画像に対してキャプションが無いこと
(2)その画像に対して電子文書のコンテンツから参照が無いこと
なお、画像中にクレジットが付されているものについては、テーマ画像として扱うものとすることができる。
【0021】
これに対して、「コンテンツ画像」の定義としては、例えば「テーマ画像」とは逆に、
(1)その画像に対してキャプションがあること
(2)その画像に対して電子文書のコンテンツから参照があること
とすることができる。
【0022】
以降で説明する実施形態においては、文書データに含まれるデータの中で、関連画像を除いたものを「電子文書」として説明する。また、テーマ画像との区別を明確にする目的で、文書データに含まれるデータの中でテーマ画像を除いたものを「電子文書のコンテンツ」として説明する場合もある。「電子文書のコンテンツ」には電子文書のコンテンツ画像も含まれ得る。
【0023】
以下に、本発明の実施の形態を説明する。なお、本発明はこれら実施の形態に何ら限定されるものではなく、その要旨を逸脱しない範囲において、種々なる態様で実施し得る。
【0024】
<実施形態1>
以下図面を参照しながら実施形態1について説明する。なお、実施形態1においては、関連画像はテーマ画像であるものとして説明する。関連画像がコンテンツ画像である場合の例については、後述する実施形態5において説明する。
【0025】
図1は電子機器11と電子文書変換装置12とを含むシステムを示す図である。
図1(a)では、電子文書変換装置12は出版社側システム(出版社のサーバなどを含むシステム)15に含まれており、データベース(DB)13から雑誌記事や書籍記事などのオリジナルの誌面に用いられる文書データが入力される。電子文書変換装置12は入力された文書データを用いて文書データを電子機器11用のデータ・ファイルに変換する。そして、変換された電子機器11用のデータ・ファイルは、電子書籍販売サイト14に格納される。電子機器11のユーザはネットワーク10を介してこのデータ・ファイルをダウンロードして、テーマ画像と電子文書とを電子機器11のディスプレイに表示する。
【0026】
図1(b)は
図1(a)の変形例であり、電子文書変換装置12が電子書籍販売サイト14に含まれる例を示している。この場合、出版社側システム15のDB13から文書データが電子書籍販売サイト14に送られ、この電子書籍販売サイト14において後述する変換処理が行われる。
図1(c)は
図1(a)の別の変形例であり、電子文書変換装置が電子機器11内に含まれる例を示している。この場合、電子書籍販売サイト14からは通常の文書データがネットワーク10を介して電子機器11に送られ、電子機器11にて後述する変換処理が行われることになる。
【0027】
図2は、電子文書変換装置12のブロック図である。電子文書変換装置12は、電子文書データ取得部201と、画像識別部202と、プロファイル・データ取得部203と、変換規則データ取得部204と、ページ変換部205とを含む。電子文書変換装置12には、関連画像としてのテーマ画像を含む文書データ20aが入力される。また、電子文書変換装置12からは、電子機器11に適したページに変換されたデータ・ファイル20bが出力される。
【0028】
図2に示す各部は、ハードウエア、ソフトウエア、ハードウエアとソフトウエアの両者、のいずれかによって構成される。例えば、これらを実現する一例として、コンピュータを利用する場合には、CPU、メモリ、バス、インターフェイス、周辺装置などから構成されるハードウエアと、これらのハードウエア上にて実行可能なソフトウエアを挙げることができる。具体的には、CPUがメモリ上に展開されたプログラムを順次実行することで、メモリ上のデータや、インターフェイスを介して入力されるデータの加工、蓄積、出力などにより各部の機能が実現される(本明細書の全体を通じて同様である)。
【0029】
電子文書データ取得部201は、電子文書変換装置12に入力された文書データ20aを取得する。例えば、電子文書データ取得部201は、ネットワークインタフェースを介して外部の装置から文書データを取得したり、バスインタフェースを介して電子文書変換装置12内のハードディスクから文書データを取得したりする。
【0030】
図3に、文書データ20aによって表されるオリジナルの雑誌記事の誌面の一例を示す。301は1ページで構成された記事を示し、かつその記事301の中に1つのテーマ画像302が含まれている。303は2ページに跨って構成された記事を示し、かつその記事303の中に1つのテーマ画像304が含まれている。
【0031】
次に、文書データ20aの中に含まれるテーマ画像を識別する方法について説明する。この識別処理は、画像識別部202において行われる。文書データ20aの形態としては、例えば(1)XML形式で記述された構造化データ、(2)雑誌用に作成されたDTPデータ、(3)スキャナで読み込んだ文書画像データが考えられる。
【0032】
XML形式で記述された構造化データは、タグを用いることで要素に意味付けを行うことが可能である。従って、データ構造を参照して例えば「theme image」というタグが付された画像をテーマ画像として識別することができる。または、画像近傍にキャプションを示すタグが付されていない画像をテーマ画像として識別することができる。
【0033】
雑誌用に作成されたDTPデータは、上記のような要素の意味付けがなされていないデータである。そこで、DTPデータによって表されるオリジナルの雑誌誌面の画面イメージをユーザに表示する。そして、ユーザからどの画像がテーマ画像であるかを指定されることによって、その画像をテーマ画像として識別することができる。あるいは、画像オブジェクトの近傍に他の文章のフォントとは異なるフォントで記述された文章が配置されている場合には、その文章をキャプションと判断し、その画像オブジェクトはキャプションが付された画像であると判定して、その画像オブジェクトについてはテーマ画像として識別しないこともできる。さらには、電子文書のコンテンツから参照されていない画像オブジェクトをテーマ画像として識別することができる。例えば、文書データに含まれるテキストオブジェクトの中のテキスト・データを検索して「写真は」という文言や、「(写真参照)」といった画像を参照する文字が含まれておらず、かつ、画像オブジェクトが存在する場合には、その画像をテーマ画像と識別することもできる。
【0034】
スキャナで読み込んだ文書画像データについては、OCR(Optical Character Reader)を用いることで文書の内容を取得することができる。また、読み取った文書データの濃度を参照するなどして文書領域と画像領域とを特定することができる。特定した領域について、上記のDTPデータの場合と同様にユーザからの指定によって、あるいは、画像領域の近傍のフォントを参照するなどして、ある画像領域の画像をテーマ画像として識別することができる。
【0035】
以上の説明は例示であり、他の手法によってテーマ画像を識別してもよいことはもちろんである。
【0036】
表示領域プロファイル・データ取得部203は、電子文書を表示する表示手段の表示画面領域を示すデータを含む表示領域プロファイル・データを取得する。表示領域プロファイル・データは、例えば電子機器11のディスプレイのサイズや、解像度などを規定するデータである。表示領域プロファイル・データは電子文書変換装置12のハードディスクに記憶されていたものを取得してもよいし、ネットワークインタフェースを介して外部の装置から取得してもよい。ここでいう表示手段は、例えばスマートフォンやタブレット型コンピュータなどの電子機器11のディスプレイである。電子機器11の表示領域の一例としては、画面面積が約38cm
2のサイズが挙げられる。このサイズは雑誌などのA4サイズの誌面の面積約624cm
2の面積比約1/16の小さいサイズとなる。
【0037】
変換規則データ取得部204は、電子機器11の表示領域に変換する際に人間の視認特性を元にした変換規則データを取得する。変換規則データは、変換される記事のフォントや関連画像の配置位置を規定するものである。変換規則データは電子文書変換装置12のハードディスクに記憶されていたものを取得してもよいし、ネットワークインタフェースを介して外部の装置から取得してもよい。
【0038】
ページ変換部205は、表示領域プロファイル・データに基づいて文書データ20aを電子機器11の表示手段に適したデータ・ファイル20bに変換する処理を行う。上述したように電子機器11は、表示可能な領域が限られるので、雑誌などの誌面領域よりも小さい表示領域で電子文書のコンテンツが複数のページに跨って表示されることになる。ページ変換部205においては、表示領域プロファイル・データに基づいて文書データを表示手段に適した複数のページに変換し、電子文書のコンテンツを表示する複数のページのそれぞれにテーマ画像を配置する処理が行われる。
【0039】
ページ変換部205における変換後に出力されるファイル形式は、ePub、PDF、xmdf、bookなどである。これらはページ単位でデータが構成されているものとする。ePubやxmdfなどの構造化データ形式においてはページ区切りをすることで複数のページを有するデータに変換することができる。例えば、ePub形式のものでは、実際のコンテンツを表すHTMLファイルを1ページ毎のファイルに分割して、各ページを表すHTMLファイルの関係をopfファイルで定義し、これらのファイルを含むePubファイルを作成することでページ単位のデータ変換を実現することができる。PDFデータの場合には例えば上記のePubファイルで表示されるデータをPDFデータに変換する処理を行うことができる。
【0040】
次に、ページ変換部205における処理について、
図4のフローチャートを参照しながら説明する。
図4のフローチャートは、例えば、電子文書変換装置12のメモリに展開されたプログラムをCPUが実行することによって行われる。
【0041】
まず、文書データ20aに含まれ、かつ画像識別部202によって識別されたテーマ画像のページ範囲を決定する(S401)。この処理は、A4サイズの誌面のようなオリジナルの雑誌の誌面上において、テーマ画像が1ページ内に配置されるのか、または複数のページに跨って配置されるのかを決定する。このため、まず、文書データ20aを展開して、
図3で示すようなオリジナルの誌面レイアウトを再現する。そして、テーマ画像が複数のページに跨るのか否かを決定する。この結果はメモリに一時的に保存される。
図3に示したようにオリジナルの誌面において、
図3(a)に示すようにテーマ画像は1つのページ内に配置されている場合もあれば、
図3(b)に示すように2ページに跨って配置されている場合もある。
【0042】
次に、S401で識別したテーマ画像のページ範囲の中のコンテンツ範囲を決定する(S402)。コンテンツ範囲とは、電子文書のコンテンツがどこから始まって、どこで終了するかを示す範囲である。このコンテンツ範囲内に記載されている電子文書のコンテンツが含まれる全てのページにテーマ画像が配置されることになる。文書データ20aが1つの電子文書(例えば1つの記事)に対して1つのファイルで構成されている場合には、そのファイルで表される範囲がテーマ画像のコンテンツ範囲となる。また、文書データ20aが構造化データ形式の電子文書データの場合には、タグによって表されるテーマ画像が含まれる電子文書の開始部分と終了部分とに囲まれる部分がテーマ画像のコンテンツ範囲となる。文書データ20aが構造化データ形式でない場合には、ユーザ入力によってどの部分までがテーマ画像のコンテンツ範囲であるかを決定する。決定されたコンテンツ範囲内に記載されている電子文書のコンテンツはメモリに一時的に格納される。
【0043】
次に、
図3のオリジナルの誌面におけるテーマ画像のコンテンツ範囲の中で、最初のコンテンツ要素と最後のコンテンツ要素とを決定する。コンテンツ要素は、基本的には本文の文字となるが、図表や写真などの画像についてもコンテンツ要素となり得る。コンテンツ要素の単位としては、文字の場合には1文字とし、画像の場合には1画像とすることができる。すなわち、取り扱うことのできる最小単位とすることができる。
図3の例では、3aが最初のコンテンツ要素であり、3bが最後のコンテンツ要素である。識別された最初のコンテンツ要素3aと最後のコンテンツ要素3bを示す情報についてもメモリに一時的に格納される。
【0044】
次に、オリジナルの誌面におけるテーマ画像の配置位置を識別する(S403)。本実施形態においては、オリジナルの誌面におけるテーマ画像の配置位置と、変換後の各ページにおけるテーマ画像の配置位置とが全体として対応する位置になるようにする。これは、オリジナルの誌面レイアウトを考えて適切な位置に配置したテーマ画像を全体として対応する位置に配置することで作者の意図を適切に反映するためである。そこで、まず、S403においてはオリジナルの誌面の状態でテーマ画像がどの位置に配置されているのかを識別する処理が行われる。
【0045】
図5はオリジナルの誌面におけるテーマ画像の配置位置を識別する方法を説明するための図である。本実施形態においては、まず、オリジナルの誌面におけるページ範囲内で、上下に2等分割し、左右に2等分割する。すなわち、オリジナルの誌面を4つの領域に分割する。次に、テーマ画像の中心点を識別し、その中心点が上記4つの領域のどこに位置するかを識別する。中心点は、画像の矩形の2本の対角線の交点とする。
図5(a)のオリジナルの誌面501はテーマ画像のページ範囲が1ページの場合を示しており、テーマ画像の中心点502は右上の領域に位置している。
図5(b)のオリジナルの誌面503はテーマ画像のページ範囲が2ページに跨っている場合を示している。この場合においても2ページ全体を4つの領域に分割した場合には、テーマ画像の中心点504は左上の領域に位置していると識別することができる。中心点の位置は、メモリに一時的に格納される。
【0046】
なお、
図5に示す例においては、テーマ画像の中心点が4つの領域のいずれかに位置していることが識別できている。しかしながら、中心点が分割線上に位置する場合も想定される。このような場合には、変換規則データ取得部204にて取得した変換規則データに従って配置位置を決定することができる。例えば、記事を読まれる順に優先度を設ける規則とする。すなわち、縦書きの場合には、右上、左上、右下、左下の順に優先度を設け、横書きの場合には、左上、右上、左下、右下の順に優先度を設けることができる。
【0047】
次に、変換領域を確保する(S404)。この処理は、表示領域プロファイル・データに含まれる表示画面領域をメモリ上に確保する処理に相当する。
【0048】
次に、S404で確保した変換領域にテーマ画像を配置する(S405)。
図6は、変換領域における変換の遷移を示す図である。
図6においては、テーマ画像がオリジナル誌面の1ページに含まれる場合の例を示している。
図6(a)は1ページ分の変換領域601を示す。オリジナルの誌面の時と同様に、変換領域についても上下に2等分割、左右に2等分割をして、4つの領域に分割する。そして、
図6(b)に示すように、S403で識別したオリジナルの電子文書の誌面における配置位置に対応する領域602にテーマ画像を配置する。
図6(b)は
図5(a)と同様に右上の領域にテーマ画像が配置される例を示している。
【0049】
なお、テーマ画像を配置する場合には、縦横比を維持したまま、配置される領域内で横幅いっぱいに調整した状態でテーマ画像を配置する。そして、領域の縦幅内にテーマ画像が収まった場合は、領域内の上下方向の中央にテーマ画像を配置する。領域の縦幅内にテーマ画像が収まらなかった場合は、縦横比を維持したまま領域内で縦幅いっぱいにテーマ画像を調整して配置する。このようにして、変換領域におけるテーマ画像の配置位置とサイズが決定される。
【0050】
次に、S405でテーマ画像が配置された変換領域601に電子文書のコンテンツを配置する(S406)。この処理は、テーマ画像を配置した各ページの残りの領域に、電子文書のコンテンツをいわば流し込む処理である。
図6(c)は複数のページに跨ってテーマ画像602が配置されると共に、電子文書のコンテンツが配置された例を示している。このコンテンツは、テーマ画像を配置した変換領域においてテーマ画像を回り込む形で、S402で決定した最初のコンテンツ要素3aから最後のコンテンツ要素3bまで順次配置される。ここでコンテンツ要素に対して設定する文字フォント属性は、変換規則データ取得部204にて取得した変換規則データに従って設定される。例えば、フォントとして一律8ptの文字サイズを設定することができる。
【0051】
図7は、テーマ画像がオリジナル誌面の2ページに跨って含まれる場合の例を示している。
図7(a)は
図6(a)と同様に1ページ分の変換領域701を示している。
図7(b)では、
図5(b)のテーマ画像の中心点504が全体として左上の領域に位置しているので、テーマ画像702が左上の領域に配置される例を示している。なお、2ページに跨っていたテーマ画像を縦横比を維持したまま縮小しているので、
図6(b)の場合よりも画像サイズが小さくなっている。
図7(c)は、
図6(c)と同様に複数のページに跨ってテーマ画像が配置されると共に、電子文書のコンテンツが配置された例を示している。
【0052】
なお、最後のコンテンツ要素3bが配置されるページにおいては、その最後のコンテンツ要素3bの後に余白が存在する場合が多々ある。そのような場合には、そのまま余白を設定してもよいし、あるいは、続きの別の電子文書のコンテンツがある場合には、その最後のコンテンツ要素の後に、続きの別の電子文書のコンテンツを配置することもできる。その別の電子文書のコンテンツが次ページに続く場合には、内容的にも完全に別の電子文書コンテンツになるのでテーマ画像を配置しないようにしてもよい。
【0053】
次に、このようにして変換領域にテーマ画像と電子文書のコンテンツとが配置されたデータからデータ・ファイルを生成して、作業領域のメモリ領域を開放する(S407)。生成されるデータ・ファイルは、前述したように、ePub、PDF、xmdf、bookなどのファイルである。そして、各ページ単位でのデータが含まれる。ePubやxmdfなどの構造化データ形式においてはページ区切りをして、各ページにテーマ画像が配置されるように規定して複数のページを有するファイルを作成する。例えば、ePub形式のものでは、変換後の1ページ分を表すHTMLファイルをページ分作成して、各ページを表すHTMLファイルの関係をopfファイルで定義し、これらのファイルを含むePubファイルを作成することでファイル生成が行われる。
【0054】
以上説明したように、本実施形態においては文書データを電子機器の表示領域に適したデータに変換する際に、テーマ画像を全てのページに配置することにより、作者の意図を反映した形で電子機器用のデータを提供することが可能となる。
【0055】
<実施形態2>
実施形態1においては、変換領域に配置するテーマ画像については全て同じ大きさのテーマ画像を配置している例を説明した。実施形態2においては、電子機器のディスプレイの2ページ目以降に表示されるテーマ画像を1ページ目に表示されるテーマ画像とは別の大きさのテーマ画像とする例について説明する。具体的には、変換領域の2ページ目以降の領域に配置されるテーマ画像は、1ページ目に配置されるテーマ画像よりも縮小した画像とする。1ページ目において読者にある程度の印象を与えているので、2ページ目以降では縮小した画像を表示させてもそれほど読者に対する影響はないからである。また、2ページ目以降に表示させるテーマ画像を縮小することで、2ページ目以降に表示させる電子文書のコンテンツの量を増やすことができる。
【0056】
ここで、変換領域の1ページ目に配置されるテーマ画像は
図4のS405の処理と同様に行われる。変換領域の2ページ目以降に配置されるテーマ画像については、例えば1ページ目のテーマ画像の1/2のサイズとすることができる。なお、2ページ目以降に配置されるテーマ画像にリンクを張ることで、電子機器で表示された場合にユーザによってテーマ画像がクリックされたり、タッチされたりした場合に、1ページ目のテーマ画像を表示してテーマ画像を拡大表示することも可能である。また、2ページ目以降のテーマ画像をサムネイル画像としてアイコン表示して、各ページの余白部分に表示させてもよい。
【0057】
以上の例においては、2ページ目以降に配置されるテーマ画像が1ページ目に配置されるテーマ画像よりも縮小した画像とする例について説明したが、以上の例とは逆にテーマ画像を順次に拡大することもできる。
【0058】
<実施形態3>
実施形態3においては、1つの記事の中にテーマ画像が複数存在する例について説明する。テーマ画像が複数存在する場合には、複数のテーマ画像を1つのページ内に表示させてもよいが、実施形態3ではページ毎にテーマ画像を切り換えて表示させるように配置する。この処理は、
図4のS405の処理において、各ページに配置するテーマ画像をページ毎に切り換えて配置することで実現できる。なお、実施形態3を実施形態2と組み合わせることも可能である。すなわち、テーマ画像を最初に表示させるページにおいては実施形態1で説明したように通常通りの大きさで表示させるように配置し、2回目以降に表示させるページにおいては、実施形態2で説明したように縮小した画像を配置したり、アイコン化して各ページの余白部分に配置するということも可能である。
【0059】
<実施形態4>
実施形態1では、テーマ画像を配置した後に、コンテンツ要素を最初のコンテンツ要素3aから最後のコンテンツ要素3bにかけて配置する例を説明した。しかしながら、実施形態1でも説明したように、この処理では最後のページに余白ができてしまう可能性が高い。そこで、最後のページに余白が生じないように、実施形態4では最後のページにおいて最後のコンテンツ要素3bから最初のコンテンツ3aに向けて逆順にコンテンツ要素を配置していくことで最後のページの最後の部分に電子文書の最後のコンテンツ要素3bが配置されるように調整することも可能である。
【0060】
この処理は、
図4のS406の処理において、最後のコンテンツ要素3bから最初のコンテンツ要素3aにかけてテーマ画像を回り込む形で逆順に電子文書のコンテンツを配置することで実現できる。そして、最初のページについては空き領域が発生することになるので、その空き領域を埋めるようにテーマ画像を拡大することで最初のページの余白部分を少なくすることができる。また、このように最初のページのテーマ画像を大きく表示させるように配置することで、その記事のテーマを読者により一層印象付けすることができる。
【0061】
<実施形態5>
上記の実施形態1から4においては、関連画像としてテーマ画像を用いる例について説明した。実施形態5では、関連画像としてコンテンツ画像を用いる例について説明する。雑誌記事などの作者は、読者がコンテンツ画像に関係する記事中の文章を読む際に、対応するコンテンツ画像を参照しながら読んでくれるだろうという意図で雑誌記事などを作成している。従って、雑誌記事などの電子文書の文書データを電子機器の表示領域に適したデータに変換する際に、コンテンツ画像に関係する文章が表示される各ページには、対応するコンテンツ画像が表示されるように変換されることが望ましい。従って、実施形態5においてはコンテンツ画像が複数のページに配置されるように変換される例について説明する。
【0062】
なお、実施形態5における電子文書変換装置の構成や処理の流れについては実施形態1で説明したものと概ね同じであるので、共通する部分の説明は省略し、相違点について説明をする。
【0063】
まず、文書データ20aの中に含まれるコンテンツ画像を識別する方法について説明する。この識別処理は、画像識別部202において行われる。コンテンツ画像の識別も実施形態1で説明したテーマ画像と同様に行うことができる。例えば、XML形式で記述された構造化データでは、例えばコンテンツ画像に「content image」といったタグが付された画像をコンテンツ画像として識別することができる。あるいはまた、実施形態1で説明したような「theme image」といったテーマ画像を示すタグが付されていない画像をコンテンツ画像として識別してもよい。また、雑誌用に作成されたDTPデータの場合には、DTPデータによって表されるオリジナルの雑誌誌面の画面イメージをユーザに表示し、ユーザからどの画像がコンテンツ画像であるかを指定されることによって、その画像をテーマ画像として識別することができる。あるいは、画像オブジェクトの近傍に他の文章のフォントとは異なるフォントで記述された文章が配置されている場合には、その文章をキャプションと判断し、その画像オブジェクトはキャプションが付された画像であると判定して、その画像オブジェクトについてコンテンツ画像として識別することもできる。スキャナで読み込んだ文書画像データについても、実施形態1で説明した場合と同様にコンテンツ画像として識別することができる。あるいはまた、実施形態1で説明したようなテーマ画像以外の画像をコンテンツ画像として識別してもよい。
【0064】
次に、コンテンツ画像が適用される範囲を決定する方法について説明する。この処理は、S402の処理に相当する。実施形態1で説明したテーマ画像の場合には、雑誌記事などの電子文書のコンテンツがどこから始まって、どこで終了するかを示す範囲であるコンテンツ範囲を決定し、そのコンテンツ範囲内に含まれているコンテンツが含まれる全てのページにテーマ画像が配置されることについて説明した。コンテンツ画像の場合にも同様に、コンテンツ範囲内に記載されている電子文書のコンテンツが含まれる全てのページにコンテンツ画像を配置してもよい。この場合の処理については、実施形態1と同様であるので、説明は省略する。
【0065】
一方で、コンテンツ画像が適用される範囲は、あるコンテンツの中の特定の部分だけである場合が想定される。例えば、電子文書がサッカーの記事である場合を想定する。記事の中に、ある試合Aの得点シーンを表すコンテンツ画像が含まれている場合には、その試合Aに関する文章などがそのコンテンツ画像に関係するものであり、一方で、他の試合Bに関する文章などはそのコンテンツ画像に関係するものではないと考えられ得る。従って、このような場合には、ある試合Aに関する文章の部分が表示される複数のページには、そのコンテンツ画像を配置するように処理することが記事の作者の意図に沿ったものと考えることができる。
【0066】
そこで、コンテンツ画像が、電子文書の一部分に対応する場合には、そのコンテンツ画像が適用される範囲を、電子文書のコンテンツの中から決定する必要がある。ここで、文書データ20aがXML形式のような構造化されたデータ構造である場合には、そのデータ構造を参照してコンテンツ画像が適用される範囲を決定することができる。例えば、あるコンテンツ画像あるいはコンテンツ画像を示すタグに対して「id="content image"」というように識別子が付加されており、そのコンテンツ画像を説明する文章の開始部分と終了部分とがその識別子に関連付けられている場合(例えば、コンテンツ画像を説明する文章の開始部分に「<image_identifier id= content image> 」というコンテンツ画像の識別子と結び付けられたタグが付され、コンテンツ画像を説明する文章の終了部分に「</image_identifier id= content image>」というタグが付されている場合)には、これらのデータ構造を参照してコンテンツ画像について説明されている範囲を特定することができる。
【0067】
また、オリジナルの雑誌誌面の画面イメージをユーザに表示して、ユーザから指示によって、コンテンツ画像が適用される範囲を決定してもよい。
【0068】
このようにして決定されたコンテンツ範囲に対する以降の処理は実施形態1で説明したものと同様であるので説明は省略する。また、コンテンツ画像の場合にも、実施形態2から4で説明した技術を適用することも可能である。
【0069】
なお、テーマ画像とコンテンツ画像とが混在する電子文書の場合には、どちらの画像を優先的に複数のページ上に表示させるかをユーザからの選択に基づいて行っても良い。あるいは、これらの優先度については、変換規則データに予め規定してあり、この変換規則データに基づいて優先的に表示させる画像を決定してもよい。
【0070】
このように、雑誌記事などの電子文書の文書データを電子機器の表示領域に適したデータに変換する際に、コンテンツ画像に関係する文章が表示される各ページには、対応するコンテンツ画像が表示されるように変換することが可能となり、作者の意図に沿った形で電子文書を変換することができる。
【0071】
<その他の形態>
以上説明した各実施形態においては、電子機器11と電子文書変換装置12とを別個の機器として例示した。しかしながら、
図1(c)で示したように上記で説明した電子文書変換装置12の機能を電子機器11に組み込んで、両者を一体化した形態を採用してもよい。この場合、表示領域プロファイル・データは各電子機器11に固有の情報を用いることができるので、電子文書変換装置12内に各小型電子機器用の各表示領域プロファイル・データを記憶する必要が無くなる。
【0072】
また、電子書籍のデータ形式についても、ePub、PDF、xmdf、bookなどを例に挙げて説明したが、これ以外の形式を用いても良いのはもちろんである。また、ページ区切りについても、他の手法を用いて行っても良い。
【0073】
また、テーマ画像は電子文書のコンテンツと重複して表示される画像であってもよい。例えば、背景として埋め込まれている画像もテーマ画像として扱うことも可能である。
【0074】
また、本発明は上述した各実施形態の機能を実現するソフトウエアのプログラムを、ネットワーク又は各種記憶媒体を介してシステム或いは装置に供給し、そのシステム或いは装置のコンピュータ、またはCPUやMPU等がプログラムを実行することで実現することができる。この場合、プログラム自身及びプログラムを記録したコンピュータ読み取り可能な記録媒体についても本発明の範囲に含まれることはもちろんである。