(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024074239
(43)【公開日】2024-05-30
(54)【発明の名称】文書内のイメージオブジェクトの変形及び剽窃の検証のためのメタデータ生成装置及びその方法
(51)【国際特許分類】
G06T 7/00 20170101AFI20240523BHJP
G06F 16/583 20190101ALI20240523BHJP
【FI】
G06T7/00 300F
G06F16/583
【審査請求】有
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2023127142
(22)【出願日】2023-08-03
(31)【優先権主張番号】10-2022-0155463
(32)【優先日】2022-11-18
(33)【優先権主張国・地域又は機関】KR
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.WCDMA
(71)【出願人】
【識別番号】523156051
【氏名又は名称】ムハユ インコーポレーテッド
【氏名又は名称原語表記】muhayu Inc.
【住所又は居所原語表記】2F., 5 Seongsuil-ro 8-gil, Seongdong-gu, Seoul 04793 Republic of Korea
(74)【代理人】
【識別番号】100121382
【弁理士】
【氏名又は名称】山下 託嗣
(72)【発明者】
【氏名】イム,ホンヨン
(72)【発明者】
【氏名】ヨン,チャン キュン
【テーマコード(参考)】
5B175
5L096
【Fターム(参考)】
5B175DA02
5B175FB02
5L096BA17
5L096FA09
5L096JA11
(57)【要約】 (修正有)
【課題】文書内のイメージ領域の変形及び剽窃を検証するのためのメタデータ生成装置及びその方法を提供する。
【解決手段】制御部、メモリ、文書入力部及び/又はメタデータ生成部を含む統合メタデータ生成装置において、メタデータ生成部によりメタデータを生成する方法は、文書の入力を受ける段階、入力された文書をイメージファイルに変換する段階、入力された文書の書誌情報を抽出する段階、入力された文書の書式情報を抽出する段階、入力された文書内のイメージ領域及びイメージ領域内の少なくとも1つのイメージオブジェクトを抽出する段階、少なくとも1つのイメージオブジェクトの構造的特徴点を抽出する段階、少なくとも1つのイメージオブジェクトの文脈的特徴点を抽出する段階、書誌情報、書式情報、構造的特徴点及び文脈的特徴点に基づいて統合メタデータを生成する段階を含む。
【選択図】
図3
【特許請求の範囲】
【請求項1】
メタデータ生成装置によって行われる方法であって、
文書の入力を受ける段階と、
前記入力された文書をイメージファイルに変換する段階と、
前記入力された文書の書誌情報を抽出する段階と、
前記入力された文書の書式情報を抽出する段階と、
前記入力された文書内のイメージ領域及び前記イメージ領域内の少なくとも1つのイメージオブジェクトを抽出する段階と、
前記少なくとも1つのイメージオブジェクトの構造的特徴点を抽出する段階と、
前記少なくとも1つのイメージオブジェクトの文脈的特徴点を抽出する段階と、
前記書誌情報、前記書式情報、前記構造的特徴点、及び前記文脈的特徴点に基づいて統合メタデータを生成する段階と、
を含む、メタデータ生成方法。
【請求項2】
前記書誌情報は、前記入力された文書のタイトル、種類、ジャーナル名、著者、出版社、出版地、キーワード、DOI(Digital Object Identifier)、原文リンク、情報リンク、検索リンク、登録日付、状態コード、巻、号、及びページ情報のうちの少なくとも1つを含むことを特徴とする請求項1に記載のメタデータ生成方法。
【請求項3】
前記入力された文書の書式情報を抽出する段階は、
前記入力された文書のメタデータを抽出する段階と、
前記入力された文書の形式を分類する段階と、
前記入力された文書からバイトコードを抽出する段階と、
前記入力された文書の構造を分析する段階と、
最終の書式情報を生成する段階と、を含み、
前記入力された文書の構造を分析する段階は、前記少なくとも1つのイメージオブジェクトを、写真(picture)、図(figure)、イラスト(illustration)、チャート(chart)、及び表(table)のうちの少なくとも1つに分類する段階と、
を含むことを特徴とする請求項2に記載のメタデータ生成方法。
【請求項4】
前記少なくとも1つのイメージオブジェクトの構造的特徴点を抽出する段階は、
エネルギー閾値、対照強化、SIFT(Scale-Invariant Feature Transform)及びFAST(Features from Accelerated Segment Test)技術のうちの少なくとも1つを用いて、前記少なくとも1つのイメージオブジェクトの堅牢な特徴点(robust key point)を抽出する段階を含むことを特徴とする請求項3に記載のメタデータ生成方法。
【請求項5】
前記少なくとも1つのイメージオブジェクトの文脈的特徴点を抽出する段階は、
前記少なくとも1つのイメージオブジェクトのうちテキストを含むイメージオブジェクトをOCR(Optical character recognition)技術に基づいて識別する段階と、
識別されたテキスト情報に基づいて細部文脈情報を抽出する段階と、
を含む、ことを特徴とする請求項4に記載のメタデータ生成方法。
【請求項6】
コンピュータ読み取り可能な記録媒体に格納され、請求項1~5の何れか1項に記載のメタデータ生成方法をコンピュータに実行させるためのプログラム。
【請求項7】
メモリと、
文書の入力を受けるための文書入力部と、
メタデータ生成部の動作を制御する制御部と、を含み、
前記メタデータ生成部は、
前記入力された文書をイメージファイルに変換する文書変換部と、
前記入力された文書の書誌情報を抽出する書誌情報抽出部と、
前記入力された文書の書式情報を抽出する書式情報抽出部と、
前記入力された文書内のイメージ領域及び前記イメージ領域内の少なくとも1つのイメージオブジェクトを抽出するイメージ領域抽出部と、
前記少なくとも1つのイメージオブジェクトの構造的特徴点を抽出する構造的特徴抽出部と、
前記少なくとも1つのイメージオブジェクトの文脈的特徴点を抽出する文脈的特徴抽出部と、
前記書誌情報、前記書式情報、前記構造的特徴点、及び前記文脈的特徴点に基づいて統合メタデータを生成する統合メタデータ生成部と、
を含む、メタデータ生成装置。
【請求項8】
前記書誌情報は、前記入力された文書のタイトル、種類、ジャーナル名、著者、出版社、出版地、キーワード、DOI(Digital Object Identifier)、原文リンク、情報リンク、検索リンク、登録日付、状態コード、巻、号、及びページ情報のうちの少なくとも1つを含むことを特徴とする、請求項7に記載のメタデータ生成装置。
【請求項9】
前記制御部は、前記書式情報抽出部を介して、
前記入力された文書の書式情報を抽出し、
前記入力された文書のメタデータを抽出し、
前記入力された文書の形式を分類し、
前記入力された文書からバイトコードを抽出し、
前記少なくとも1つのイメージオブジェクトを、写真(picture)、図(figure)、イラスト(illustration)、チャート(chart)、及び表(table)のうちの少なくとも1つに分類することによって、前記入力された文書の構造を分析し、
最終の書式情報を生成することを特徴とする請求項8に記載のメタデータ生成装置。
【請求項10】
前記制御部は、前記構造的特徴抽出部を介して、
エネルギー閾値、対照強化、SIFT(Scale-Invariant Feature Transform)及びFAST(Features from Accelerated Segment Test)技術のうちの少なくとも1つを用いて、前記少なくとも1つのイメージオブジェクトの堅牢な特徴点(robust key point)を抽出する、ことを特徴とする請求項9に記載のメタデータ生成装置。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、メタデータ生成装置及びその方法に関する。より詳細には、本開示は、文書内のイメージオブジェクトの変形及び剽窃の検証のためのメタデータを生成する装置及びその方法に関する。
【背景技術】
【0002】
コンピュータビジョン分野において、イメージ間の類似度の判断は、ピクセル単位で実行できる。具体的に、類似度の判断は、オリジナルイメージと比較対象イメージ間の全体ピクセルの配列が一致する程度に基づいて実行できる。しかし、ピクセル単位の類似度の判断は、比較対象イメージがオリジナルイメージにおいて一部のピクセル、スケール、角度、明度、彩度などに変形を加えたイメージである場合、このような変形の検証が難しいという問題がある。また、ピクセル単位の類似度の判断は、比較対象イメージがオリジナルイメージの一部である場合、これを検証することが難しいという問題がある。上述した短所を補完するために、イメージ内の特徴点を抽出して類似度を判断する多様な技術が考案されたことがある。
【0003】
本開示の比較対象イメージは、文書(例えば、論文、寄稿文)内に含まれているイメージオブジェクトであり得る。この場合、イメージオブジェクトの種類(例えば、写真、図、イラスト、表、チャート)及びイメージオブジェクトに加えられる変形の種類が多様であり得る。従って、既存のピクセル及び特徴点に基づく類似度の判断だけでは文書内のイメージオブジェクトの変形及び剽窃を検証するのに困難が伴う。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】韓国公開特許10-2019-0064288号公報
【特許文献2】韓国公開特許10-2020-0046182号公報
【特許文献3】韓国公開特許10-2021-0086836号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明は上記事情に鑑みてなされたものであって、その目的は、文書内のイメージ領域の変形及び剽窃を検証するために、本開示に開示されたメタデータ生成装置は、イメージオブジェクトの構造的情報及び文脈的情報を統合メタデータに加工してデータベースを構築することにある。
【0006】
本開示が解決しようとする課題は、以上で言及した課題に限らず、言及していない更に他の課題は、以下の記載から通常の技術者が明確に理解できるだろう。
【課題を解決するための手段】
【0007】
上述した技術的課題を達成するための本開示の一側面に係るメタデータ生成方法は、文書の入力を受ける段階と、入力された文書をイメージファイルに変換する段階と、入力された文書の書誌情報を抽出する段階と、入力された文書の書式情報を抽出する段階と、入力された文書内のイメージ領域及びイメージ領域内の少なくとも1つのイメージオブジェクトを抽出する段階と、少なくとも1つのイメージオブジェクトの構造的特徴点を抽出する段階と、少なくとも1つのイメージオブジェクトの文脈的特徴点を抽出する段階と、書誌情報、書式情報、構造的特徴点及び文脈的特徴点に基づいて統合メタデータを生成する段階と、を含むことを特徴できる。
【0008】
また、書誌情報は、前記入力された文書のタイトル、種類、ジャーナル名、著者、出版社、出版地、キーワード、DOI(Digital Object Identifier)、原文リンク、情報リンク、検索リンク、登録日付、状態コード、巻、号、及びページ情報のうちの少なくとも1つを含むことができる。
【0009】
更に、入力された文書の書式情報を抽出する段階は、入力された文書のメタデータを抽出する段階と、入力された文書の形式を分類する段階と、入力された文書からバイトコードを抽出する段階と、入力された文書の構造を分析する段階と、最終の書式情報を生成する段階とを含み、入力された文書の構造を分析する段階は、少なくとも1つのイメージオブジェクトを、写真(picture)、図(figure)、イラスト(illustration)、チャート(chart)、及び表(table)のうちの少なくとも1つに分類する段階を含むことができる。
【0010】
また、少なくとも1つのイメージオブジェクトの構造的特徴点を抽出する段階は、エネルギー閾値、対照強化、SIFT(Scale-Invariant Feature Transform)及びFAST(Feature from Accelerated Segment Test)技術のうちの少なくとも1つを用いて、少なくとも1つのイメージオブジェクトの堅牢な特徴点(robust key point)を抽出する段階を含むことができる。
【0011】
更に、少なくとも1つのイメージオブジェクトの文脈的特徴点を抽出する段階は、少なくとも1つのイメージオブジェクトのうちテキストを含むイメージオブジェクトを、OCR(Optical character recognition)技術に基づいて識別する段階、及び識別されたテキスト情報に基づいて細部文脈情報を抽出する段階を含むことができる。
【0012】
また、上述した技術的課題を達成するための本開示の他の側面に係るメタデータ生成装置は、メモリと、文書の入力を受けるための文書入力部と、メタデータ生成部の動作を制御する制御部とを含み、前記メタデータ生成部は、前記入力された文書をイメージファイルに変換する文書変換部と、前記入力された文書の書誌情報を抽出する書誌情報抽出部と、前記入力された文書の書式情報を抽出する書式情報抽出部と、前記入力された文書内のイメージ領域及び前記イメージ領域内の少なくとも1つのイメージオブジェクトを抽出するイメージ領域抽出部と、前記少なくとも1つのイメージオブジェクトの構造的特徴点を抽出する構造的特徴抽出部と、前記少なくとも1つのイメージオブジェクトの文脈的特徴点を抽出する文脈的特徴抽出部と、前記書誌情報、前記書式情報、前記構造的特徴点、及び前記文脈的特徴点に基づいて統合メタデータを生成する統合メタデータ生成部とを含むことを特徴とする。
【0013】
この他にも、コンピュータ読み取り可能な記録媒体に格納され、本開示を実現するためのコンピュータプログラムを更に提供できる。
【0014】
この他にも、本開示を実現するための方法をコンピュータに実行させるためのコンピュータプログラムを記録するコンピュータ読み取り可能な記録媒体を更に提供できる。
【発明の効果】
【0015】
本開示の前述した課題の解決手段によれば、文書内のイメージオブジェクトに特化したメタデータを生成して、第三者によるイメージの変形及び剽窃を容易に検証又は探知する効果を提供する。
【0016】
本開示の効果は、以上で言及した効果に限らず、言及していない更に他の効果は、以下の記載から通常の技術者が明確に理解できるだろう。
【図面の簡単な説明】
【0017】
【
図1】本開示のメタデータ生成装置のブロック図である。
【
図2】本開示の一実施例に係るメタデータ生成部を説明するブロック構成図である。
【
図3】本開示の一実施例に係る統合メタデータ生成装置の動作を説明するフローチャートである。
【
図4】本開示の一実施例に係る書式情報抽出動作を説明するフローチャートである。
【
図5】本開示の一実施例に係る入力された文書に対するイメージ領域抽出結果を示すものである。
【発明を実施するための形態】
【0018】
本開示の全体に亘って、同一の参照符号は、同一の構成要素を示す。本開示が実施例の全ての要素を説明するものではなく、本開示の属する技術分野における一般的な内容又は実施例において重複する内容は省略する。明細書で用いられる「部、モジュール、部材、ブロック」という用語は、ソフトウェア又はハードウェアとして実現でき、実施例によって複数の「部、モジュール、部材、ブロック」が1つの構成要素として実現されるか、1つの「部、モジュール、部材、ブロック」が複数の構成要素を含むこともできる。
【0019】
明細書全体において、ある部分が他の部分と「接続」されているとするとき、これは直接的に接続されている場合だけでなく、間接的に接続されている場合を含み、間接的な接続は、無線通信網を介して接続されることを含む。
【0020】
また、ある部分がある構成要素を「含む」とするとき、これは特に反対の記載がない限り、他の構成要素を除外するものではなく、他の構成要素を更に含むことができることを意味する。
【0021】
明細書全体において、ある部材が他の部材の「上に」位置しているとするとき、これはある部材が他の部材に接している場合だけでなく、両部材の間に他の部材が存在する場合も含む。
【0022】
第1、第2などの用語は、1つの構成要素を他の構成要素から区別するために用いられるものであって、構成要素が前述した用語によって制限されるものではない。
【0023】
単数の表現は文脈上、明確に例外がない限り、複数の表現を含む。
【0024】
各段階における識別符号は、説明の便宜上用いられるものであって、識別符号は、各段階の順序を説明するものではなく、各段階は文脈上、明確に特定の順序を記載しない限り、明記された順序と異なって実施されることができる。
【0025】
以下、添付の図面を参照して、本開示の作用原理及び実施例について説明する。
【0026】
本明細書における「本開示に係る装置」は、演算処理を行ってユーザに結果を提供できる多様な装置が全て含まれる。例えば、本開示に係る装置は、コンピュータ、サーバ装置及び携帯用端末を全て含むか、又は何れか1つの形態になり得る。
【0027】
ここで、前記コンピュータは例えば、ウェブブラウザ(WEB Browser)が搭載されたノートパソコン、デスクトップ(desktop)、ラップトップ(laptop)、タブレットPC、スレートPCなどを含むことができる。
【0028】
前記サーバ装置は、外部装置と通信を行って情報を処理するサーバであって、アプリケーションサーバ、コンピューティングサーバ、データベースサーバ、ファイルサーバ、ゲームサーバ、メールサーバ、プロキシサーバ及びウェブサーバなどを含むことができる。
【0029】
前記携帯用端末は例えば、携帯性と移動性が保障される無線通信装置であって、PCS(Personal Communication System)、GSM(Global System for Mobile communications)、PDC(Personal Digital Cellular)、PHS(Personal Handyphone System)、PDA(Personal Digital Assistant)、IMT(International Mobile Telecommunication)-2000、CDMA(Code Division Multiple Access)-2000、W-CDMA(W‐Code Division Multiple Access)、WiBro(Wireless Broadband Internet)端末、スマートフォン(Smart Phone)などのようなあらゆる種類のハンドヘルド(Handheld)基盤の無線通信装置と時計、指輪、ブレスレット、アンクレット、ネックレス、メガネ、コンタクトレンズ又は頭部装着型装置(head‐mouted‐device(HMD))などのようなウェアラブルデバイスを含むことができる。
【0030】
図1は、本開示のメタデータ生成装置のブロック図である。
【0031】
図1を参照すると、メタデータ生成装置100は、制御部110、メモリ120、文書入力部122及び/又はメタデータ生成部130を含むことができる。
【0032】
一実施例において、制御部110は、本装置内の構成要素の動作を制御するためのアルゴリズム又はアルゴリズムを実現したプログラムに対するデータを格納するメモリ120、及びメモリ120に格納されたデータを用いて前述した動作を行う少なくとも1つのプロセッサ(図示せず)として実現できる。このとき、メモリ120とプロセッサは、それぞれ別のチップとして実現できる。または、メモリ120とプロセッサは、単一のチップとして実現することもできる。
【0033】
また、制御部は、以下の
図2ないし
図5で説明される本開示に係る多様な実施例を本装置上で実現するために、前述した構成要素のうちの何れか1つ又は複数を組み合わせて制御できる。
【0034】
一実施例において、メモリ120は、本装置の多様な機能をサポートするデータと、制御部110の動作のためのプログラムを格納でき、入/出力されるデータ(例えば、音楽ファイル、静止画、動画など)を格納でき、本装置で駆動される多数のアプリケーションプログラム(application program又はアプリケーション(application))、本装置の動作のためのデータ、命令語を格納できる。このようなアプリケーションプログラムのうちの少なくとも一部は、無線通信を介して外部サーバからダウンロードできる。
【0035】
このようなメモリ120は、フラッシュメモリタイプ(flash memory type)、ハードディスクタイプ(hard disk type)、SSDタイプ(Solid State Disk type)、SDDタイプ(Silicon Disk Drive type)、マルチメディアカードマイクロタイプ(multimedia card micro type)、カードタイプのメモリ(例えば、SD又はXDメモリなど)、ラム(random access memory;RAM)、SRAM(static random access memory)、ロム(read-only memory;ROM)、EEPROM(electrically erasable programmable read-only memory)、PROM(programmable read-only memory)、磁気メモリ、磁気ディスク及び光ディスクのうちの少なくとも1つのタイプの格納媒体を含むことができる。また、メモリ120は、本装置とは分離されているが、有線又は無線で接続されているデータベースになることもできる。
【0036】
一実施例において、文書入力部122は、ユーザから文書(例えば、論文、学術誌)の入力を受けることができる。例えば、文書は少なくとも1つのテキスト領域及び/又はイメージ領域を含むことができる。
【0037】
一実施例において、メタデータ生成部130は、入力された文書の書誌情報及び書式情報を抽出できる。一実施例において、メタデータ生成部130は、入力された文書内の少なくとも1つのイメージオブジェクトを抽出し、抽出されたイメージオブジェクトの構造的特徴及び文脈的特徴を抽出できる。一実施例において、メタデータ生成部130は、文書情報(例えば、書誌情報及び書式情報)、構造的特徴及び文脈的特徴に基づいてそれぞれのイメージオブジェクトに対する統合メタデータを生成できる。
【0038】
図2は、本開示の一実施例に係るメタデータ生成部を説明するブロック構成図である。
【0039】
図2を参照すると、メタデータ生成部130は、文書変換部200、書誌情報抽出部210、書式情報抽出部220、イメージ領域抽出部230、構造的特徴抽出部240、文脈的特徴抽出部250、及び/又は統合メタデータ生成部260を含むことができる。以下において、メタデータ生成部130及びメタデータ生成部130の各構成の動作は、メタデータ生成装置100の制御部110によって実行されるものとして理解できる。
【0040】
一実施例において、文書変換部200は、文書入力部122から入力された文書を受け取ることができる。例えば、制御部110は、文書入力部122を介してユーザから文書の入力を受けることができる。文書変換部200は、入力された文書をイメージファイルに変換できる。
【0041】
一実施例において、書誌情報抽出部210は、入力された文書の書誌情報を抽出できる。
【0042】
一実施例において、書式情報抽出部220は、入力された文書の書式情報を抽出できる。
【0043】
一実施例において、イメージ領域抽出部230は、入力された文書内のイメージ領域を抽出できる。イメージ領域は、少なくとも1つのイメージオブジェクトを含むことができる。制御部110は、イメージ領域に含まれている少なくとも1つのイメージオブジェクトを識別できる。
【0044】
一実施例において、構造的特徴抽出部240は、少なくとも1つのイメージオブジェクトの構造的特徴点を抽出できる。
【0045】
一実施例において、文脈的特徴抽出部250は、少なくとも1つのイメージオブジェクトに含まれているテキスト情報を識別し、識別されたテキスト情報に基づいて細部的な文脈情報を抽出できる。
【0046】
一実施例において、統合メタデータ生成部260は、前記構成によって抽出された文書情報(例えば、入力された文書の書誌情報、書式情報)、構造的特徴(例えば、イメージオブジェクトの特徴点情報、ピクセル領域関連情報)及び文脈的特徴点(例えば、イメージオブジェクトに含まれている文脈情報)を1つのメタデータ(例えば、統合メタデータ)に併合できる。少なくとも1つのイメージオブジェクトが複数ある場合、統合メタデータ生成部260は、それぞれのイメージオブジェクトに対する統合メタデータを生成できる。
【0047】
図1及び
図2に示す構成要素の性能に対応して、少なくとも1つの構成要素を追加又は削除できる。また、構成要素の相互位置は、システムの性能又は構造に対応して変更できるということは、当該技術分野における通常の知識を有する者が容易に理解できるだろう。
【0048】
一方、
図1及び
図2に示すそれぞれの構成要素は、ソフトウェア及び/又はField Programmable Gate Array(FPGA)及び特定用途向け半導体(ASIC、Application Specific Integrated Circuit)のようなハードウェアの構成要素を意味する。
【0049】
図3は、本開示の一実施例に係る統合メタデータ生成装置の動作を説明するフローチャートである。
【0050】
動作300において、メタデータ生成装置100の制御部110は、文書入力部122を介して文書の入力を受けることができる。一実施例において、文書は、テキスト領域及び/又はイメージ領域を含むことができる。
【0051】
動作305において、制御部110は、文書変換部200を介して入力された文書をイメージファイルに変換できる。例えば、入力された文書のイメージファイルへの変換は、ページ単位で行うことができる。
【0052】
動作310において、制御部110は、書誌情報抽出部210を介して入力された文書の書誌情報を抽出できる。例えば、書誌情報は、前記入力された文書のタイトル、種類、ジャーナル名、著者、出版社、出版地、キーワード、DOI(Digital Object Identifier)、原文リンク、情報リンク、検索リンク、登録日付、状態コード、巻、号、及び/又はページ情報を含むことができる。
【0053】
動作320において、制御部110は、書式情報抽出部220を介して入力された文書の書式情報を抽出できる。
【0054】
図4を参照すると、動作320は、動作400ないし動作440を含むことができる。動作400において、書式情報抽出部220は、入力された文書に記録されたメタデータを抽出できる。例えば、動作400から抽出されたメタデータは、文書のタイプ、文書の構造、文書長、文書の作成者、及び/又は作成日付を含むことができる。動作410において、書式情報抽出部220は、入力された文書の形式を分類できる。例えば、文書の形式はdoc、docx、hwp、pdfのような拡張子を意味し得る。動作420において、書式情報抽出部220は、入力された文書からバイトコードを抽出できる。動作430において、書式情報抽出部220は、文書の構造を分析できる。一実施例において、書式情報抽出部220は、入力された文書をテキスト領域及び/又はイメージ領域に分類できる。書式情報抽出部220は、分類されたイメージ領域を分析して、イメージ領域に含まれている少なくとも1つのイメージオブジェクトを、写真(picture)、図(figure)、イラスト(illustration)、チャート(chart)、及び表(table)のうちの少なくとも1つに細部的に分類できる。動作440において、書式情報抽出部220は、動作400ないし動作430の結果に基づいて最終の書式情報を生成できる。
【0055】
再び
図3を参照すると、動作330において、制御部110は、イメージ領域抽出部230を介して入力された文書内のイメージ領域を抽出できる。一実施例において、イメージ領域は、少なくとも1つのイメージオブジェクトを含むことができる。制御部110は、イメージ領域内の少なくとも1つのイメージオブジェクトを識別できる。
【0056】
図5を参照すると、イメージ領域抽出部230は、入力された文書500内のテキスト領域及び/又はイメージ領域を識別できる。一実施例において、テキスト領域及び/又はイメージ領域は、バウンディングボックスで識別できる。例えば、イメージ領域は、バウンディングボックス510、540で識別できる。例えば、テキスト領域は、バウンディングボックス520、530で識別できる。それぞれのバウンディングボックスは、識別座標(例えば、text0、text1、figure0、figure1)に基づいて識別できる。識別座標は、識別された領域の特徴(例えば、テキスト、イメージ)に基づいて付与できる。
【0057】
一実施例において、イメージ領域510は、イメージオブジェクトを含むことができる。例えば、イメージ領域510のイメージオブジェクト512は、イラストで理解できる。制御部110は、イメージ領域510からイメージオブジェクトを識別できる。
【0058】
一実施例において、イメージ領域540は、イメージオブジェクトを含むことができる。例えば、イメージ領域540のイメージオブジェクトは、チャートで理解できる。制御部110は、イメージ領域540からイメージオブジェクトを識別できる。
【0059】
再び
図3を参照すると、制御部110は、動作330によりイメージ領域を抽出した後、動作340及び/又は動作350に進むことができる。動作340及び動作350は、順次又は同時に実行できる。動作340及び動作350が実行される順序は、任意に定めることができる。
【0060】
動作340において、制御部110は、構造的特徴抽出部240を介して、少なくとも1つのイメージオブジェクトから構造的特徴点を抽出できる。例えば、構造的特徴抽出部240は、エネルギー閾値、対照強化、SIFT(Scale-Invariant Feature Transform)及びFAST(Features from Accelerated Segment Test)技術のうちの少なくとも1つを用いて、少なくとも1つのイメージオブジェクトの堅牢な特徴点(robust key point)を抽出できる。例えば、堅牢な特徴点は、少なくとも1つのイメージオブジェクトのコーナー点を含むことができる。制御部110は、堅牢な特徴点を少なくとも1つのイメージオブジェクトの構造的特徴点として抽出できる。一実施例において、構造的特徴抽出部240は、特徴点の堅牢な(robust)性質を維持するために抽出された構造的特徴点を絶対座標ではなく相対座標に換算して格納できる。
【0061】
動作350において、制御部110は、文脈的特徴抽出部250を介して、少なくとも1つのイメージオブジェクトのうち、テキストを含むイメージオブジェクトの文脈情報を抽出できる。一実施例において、文脈的特徴抽出部250は、抽出された少なくとも1つのイメージオブジェクト(例えば、
図5のイメージオブジェクト510、540)のうちテキストを含むイメージオブジェクトからテキスト情報を識別できる。文脈的特徴抽出部250は、識別されたテキスト情報に基づいて細部文脈情報を抽出できる。例えば、細部文脈情報は、文書プログラムの内部で作成されたものではなく、外部で作業してイメージの形式に添付されたチャート、表、イメージなどの内部に含まれているテキスト情報を意味し得る。一実施例において、文脈的特徴抽出部250は、テキスト情報の識別のために、OCR(Optical character recognition)技術を用いることができる。
【0062】
動作360において、制御部110は、統合メタデータ生成部260を介して、少なくとも1つのイメージオブジェクトに対する統合メタデータを生成できる。一実施例において、少なくとも1つのイメージオブジェクトが複数の場合、統合メタデータ生成部260は、それぞれのイメージオブジェクトに対してメタデータを生成できる。
【0063】
一実施例において、統合メタデータ生成部260は、前記構成によって抽出された文書情報、少なくとも1つのイメージオブジェクトの抽出された構造的特徴点及び文脈的特徴点を1つのメタデータ(例えば、統合メタデータ)に併合できる。例えば、文書情報は、入力された文書の書誌情報及び書式情報を含むことができる。例えば、構造的特徴点は、イメージオブジェクトの特徴点情報及びピクセル領域情報を含むことができる。例えば、文脈的特徴点は、イメージオブジェクトに含まれているテキストの細部文脈情報を含むことができる。
【0064】
一実施例において、統合メタデータ生成部260で生成されたメタデータは、データベースの形式でメモリ120に格納できる。メモリ120に格納されたイメージオブジェクト別のメタデータは、イメージオブジェクトに対する変形及び剽窃を探知するために利用できる。
【0065】
一方、開示された実施例は、コンピュータによって実行可能な命令語を格納する記録媒体の形式で実現できる。命令語は、プログラムコードの形式で格納でき、プロセッサによって実行されたとき、プログラムモジュールを生成して開示された実施例の動作を行える。記録媒体は、コンピュータで読み取れる記録媒体として実現できる。
【0066】
コンピュータが読み取れる記録媒体としては、コンピュータによって解読できる命令語が格納されたあらゆる種類の記録媒体を含む。例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、磁気テープ、磁気ディスク、フラッシュメモリ、光データ格納装置などがあり得る。
【0067】
以上のように添付の図面を参照して開示された実施例を説明した。本開示の属する技術分野における通常の知識を有する者は、本開示の技術的思想や必須な特徴を変更することなく、開示された実施例とは異なる形態に本開示が実施されることが理解できるだろう。開示された実施例は、例示的なものであり、限定的に解釈されてはならない。