特許5966481 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電気株式会社の特許一覧

特許5966481データ移行管理装置およびデータ移行管理方法、並びにコンピュータ・プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】5966481

(24)【登録日】2016年7月15日

(45)【発行日】2016年8月10日

(54)【発明の名称】データ移行管理装置およびデータ移行管理方法、並びにコンピュータ・プログラム

(51)【国際特許分類】

G06F 17/30 20060101AFI20160728BHJP

G06F 12/00 20060101ALI20160728BHJP

【ＦＩ】

G06F17/30 414B

G06F17/30 170A

G06F17/30 110C

G06F12/00 520A

【請求項の数】6

【全頁数】20

(21)【出願番号】特願2012-64792(P2012-64792)

(22)【出願日】2012年3月22日

(65)【公開番号】特開2013-196545(P2013-196545A)

(43)【公開日】2013年9月30日

【審査請求日】2015年2月16日

(73)【特許権者】

【識別番号】000004237

【氏名又は名称】日本電気株式会社

(74)【代理人】

【識別番号】100109313

【弁理士】

【氏名又は名称】机昌彦

(74)【代理人】

【識別番号】100124154

【弁理士】

【氏名又は名称】下坂直樹

(72)【発明者】

【氏名】福田真史

【審査官】小太刀慶明

(56)【参考文献】

【文献】特開２００１−０６７３４９（ＪＰ，Ａ）

【文献】特開２０００−３４７９２４（ＪＰ，Ａ）

【文献】特開２０００−０７６２６３（ＪＰ，Ａ）

【文献】特開２００９−１７５８２６（ＪＰ，Ａ）

【文献】特開２００９−１２９０１７（ＪＰ，Ａ）

【文献】米国特許出願公開第２００６／０２３５８９９（ＵＳ，Ａ１）

【文献】山田浩之，第3回転置索引とは何か？，検索エンジンはいかにして動くのか？[online]，２００９年１２月８日，［２０１６年１月５日検索］，ＵＲＬ，http://gihyo.jp/dev/serial/01/search-engine/0003

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ０６Ｆ１７／３０

Ｇ０６Ｆ１２／００

(57)【特許請求の範囲】

【請求項1】

外部装置に移行対象のデータである移行データを移行する際に、
前記外部装置の装置情報に基づいて装置ＩＤを生成し、前記移行データをなす文書ファイルから該文書ファイルの実体と、該実体に関する属性情報として文書配置位置情報、登録日、最終更新日、登録者及び最終更新日とを取得し、前記実体に含まれ、且つ検索対象となる本文情報を抽出し、前記装置ＩＤと前記属性情報とに基づいて、前記実体を特定可能な文書ＩＤを文書ＩＤ発行ルールに従って生成し、前記文書ＩＤと前記本文情報と前記属性情報とに基づいて、前記本文情報の検索に際して参照する転置インデックスを生成すると共に、前記文書ＩＤに基づいて、前記転置インデックスを逆向きに検索する際に参照する逆インデックスを生成することを特徴とするデータ移行管理装置。

【請求項2】

前記データ移行管理装置は、
前記装置情報である前記外部装置にサーバをインストールした日時とホスト名とＭＡＣアドレスとに基づいて、所定の演算によって、前記装置ＩＤを生成することを特徴とする請求項１に記載のデータ移行管理装置。

【請求項3】

前記文書ＩＤ発行ルールは、
前記属性情報と前記装置ＩＤとを基にハッシュ関数計算器によって、生成したハッシュ値と文書の種別ＩＤとに基づき所定の演算よって、文書ＩＤを生成させることを特徴とする請求項１に記載のデータ移行管理装置。

【請求項4】

前記データ移行管理装置は、
前記外部装置から前記文書ＩＤ発行ルールを取得することを特徴とする請求項１に記載のデータ移行管理装置。

【請求項5】

【請求項6】

データ移行管理装置の動作制御のためのコンピュータ・プログラムであって、そのコンピュータ・プログラムにより、
外部装置に移行対象のデータである移行データを移行する際に、
前記外部装置の装置情報に基づいて装置ＩＤを生成し、前記移行データをなす文書ファイルから該文書ファイルの実体と、該実体に関する属性情報として文書配置位置情報、登録日、最終更新日、登録者及び最終更新日とを取得し、前記実体に含まれ、且つ検索対象となる本文情報を抽出し、前記装置ＩＤと前記属性情報とに基づいて、前記実体を特定可能な文書ＩＤを文書ＩＤ発行ルールに従って生成し、前記文書ＩＤと前記本文情報と前記属性情報とに基づいて、前記本文情報の検索に際して参照する転置インデックスを生成すると共に、前記文書ＩＤに基づいて、前記転置インデックスを逆向きに検索する際に参照する逆インデックスを生成する機能を備えることを特徴とするコンピュータ・プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、異なる装置間においてデータを移行する技術分野に関する。

【背景技術】

【0002】

一般的に知られた全文検索装置では、大量のデータの中からユーザの求める情報を正確、且つ迅速に検索すると共に、検索した結果を提供することが求められている。

【0003】

このような要求に対して、全文検索装置における検索方法は、大別して走査型（ｇｒｅｐ型）と索引型（インデックス型）との２種類の方法がある。

【0004】

走査型（Ｇｒｅｐ型）は、文書の先頭から末尾までを読み込むことによって、一致する検索対象の文字列を探し出す方法である。また、索引型（インデックス型）は、あらかじめ検索対象となる文書を基に索引（インデックス）を作成し、そのインデックスを基に検索することによって、検索速度の向上を図る手法である。

【0005】

索引型（インデックス型）は、検索対象となる文書が増えた場合においても検索速度の低下を防ぐことが可能である。そのため、索引型（インデックス型）は、中規模から大規模の文書検索に適した手法である。一方で、索引型（インデックス型）は、索引（インデックス）の作成に多くの時間を必要とする。

【0006】

このような背景から、索引（インデックス）の作成および再作成に関する技術は、多岐にわたり存在する。

【0007】

特許文献１に記載されたアンロードプログラム、ロードプログラム及びデータ移行方法は、アンロードプログラムを実行することによって、移行前のシステムからオブジェクトのオブジェクト識別子とそのオブジェクトが有する属性値とからなるレコードが蓄積されたオブジェクトアンロードファイルを生成する。

【0008】

さらに、特許文献１は、移行前のシステムから全てのインデックスデータを読み出すと共に、読み出したインデックスデータを格納したインデックスアンロードファイルを生成する。

【0009】

特許文献１は、生成したオブジェクトアンロードファイルとインデックスアンロードファイルを移行後のシステムに送信する。

【0010】

次に、特許文献１は、ロードプログラムを実行することによって、移行前のシステムから送信されたオブジェクトアンロードファイルを読み出す。特許文献１は、読み出したレコードに対して、新たなオブジェクト識別子を付与する。

【0011】

特許文献１は、データ移行前のオブジェクト識別子と新たに付与したオブジェクト識別子とを対応させたインスタンス番号テーブルとクラス番号テーブルとを生成する。

【0012】

さらに、特許文献１は、クラス番号変換テーブルおよびインスタンス番号変換テーブルを参照し、レコード内にある属性リンクのインデックス情報（移行前のオブジェクト識別子）を、新たなオブジェクト識別子に変換する。

【0013】

このように、特許文献１は、アンロードプログラムおよびロードプログラムを実行することによって、移行後のシステムにおけるインデックステーブルを効率よく作成すると共に、移行したレコード内にある属性リンクのインデックス情報を効率よく移行する技術を開示する。

【0014】

特許文献２に記載された文書検索装置は、ユーザから文書データの修正要求を受け付けた場合、修正後の文書データを読み込む。さらに、特許文献２は、読み込んだ文書データからインデックスキー候補を取得する。特許文献２は、取得したインデックスキー候補が、すでに転置インデックスに登録されているか否かを判断する。

【0015】

特許文献２は、判断した結果、インデックスキー候補が転置インデックスに登録されていない場合に、新規インデックスキーとして転置インデックスに登録する。

【0016】

一方、特許文献２は、インデックスキー候補が転置インデックスに登録されている場合に、データ修正入力部から通知された修正処理手順に従って、転置インデックスに登録されているインデックスキーを消去または変更する。

【0017】

このように、特許文献２は、文書データを修正した際のインデックスの再作成時間を減少させる技術を開示する。

【0018】

特許文献３に記載された匿名データベースシステムは、ユーザによって入力されたバイオメトリクス情報と識別アイディー（ｉｄｅｎｔｉｆｉｃａｔｉｏｎ；以降、「ＩＤ」と称する）生成ルール記憶部に記憶された識別ＩＤ生成ルールに基づいて、識別ＩＤを生成する識別ＩＤ生成部を有する。

【0019】

さらに、特許文献３は、データベースシステムに登録する情報と生成した識別ＩＤとをペアにしてデータベースシステムに登録する。これにより、特許文献３は、バイオメトリクス情報が入力され際に、当該バイオメトリクス情報に基づき識別ＩＤ生成部によって、生成した識別ＩＤを用いてデータベースに登録された情報を検索すると共に、検索結果を表示する。

【0020】

さらに、特許文献３は、複数のデータベースシステム間において、登録したデータの保存先を変更する場合に、移行前のデータベースシステムからユーザの識別ＩＤに対応したデータを抜き取る。

【0021】

さらに、特許文献３は、移行後の識別ＩＤ生成ルールを用いて、識別ＩＤを生成する。特許文献３は、移行前から抜き取ったデータの識別ＩＤを、移行後に生成した識別ＩＤに変更する。さらに、特許文献３は、移行後のデータベースシステムに識別ＩＤを変更したデータを登録する。

【0022】

このように、特許文献３は、本人固有の生物学的特徴であるバイオメトリクス情報に基づいて生成した識別ＩＤを個人特定情報の代わりに用いることによって、個人特定情報が流れることなく、情報をやり取りする技術を開示する。

【先行技術文献】

【特許文献】

【0023】

【特許文献1】特開２００４−１８５２７０号公報

【特許文献2】特開２０１１−０１３９８４号公報

【特許文献3】特開２００５−０５１４６３号公報

【発明の概要】

【発明が解決しようとする課題】

【0024】

ところで、文書管理装置の運用は、安定して動作させるために定期的なバージョンアップやハードウェアのリプレイスを行う必要がある。そのため、文書管理装置は、旧文書管理装置（以降、「移設元装置」と称する）で作成したデータベースを新文書管理装置（以降、「移設先装置」と称する）に移設する。即ち、文書管理装置においては、移設元装置で作成した索引（インデックス）を移設先装置で動作可能な索引（インデックス）を新たに作成する必要がある。

【0025】

より具体的に、例えば、文書管理装置は、データベースのバージョンやオペレーティングシステム（ＯｐｅｒａｔｉｎｇＳｙｓｔｅｍ；以降、「ＯＳ」と称する）の種別等が異なる文書管理装置間において、リプレイスを行う場合、移設元装置で作成した転置インデックスを移設先装置に移設することができない。

【0026】

その理由は、データベースのバージョンやＯＳの種別等が異なるために、移設先装置におけるデータの保持方法が異なる場合や転置インデックスの作成方法が異なる場合、または何れも不明な場合等に対応するためである。

【0027】

このため、移設元装置は、データ単位を識別するためのデータキー（データＩＤ）を、移設するデータに含めることができない。ここで、一例として、データ単位とは、データとそのデータに関連する登録者、登録日、更新者、更新日などの属性値である。

【0028】

このため、一般的に知られた文書管理装置は、異なる文書管理装置間においてデータの移設を行う際に、移設元装置から移設したデータを移設先装置に登録した後に、転置インデックスを作成する必要がある。

【0029】

しかしながら、近年、文書管理装置の運用では、データを移設する際に、短時間で文書管理装置の運用を開始することが求められている。そのため、転置インデックスの作成は、データを移設後の新たな文書管理装置の運用を開始した後に行うことも少なくない。

【0030】

また、転置インデックスの作成では、転置インデックスを作成する際の文書管理装置への負荷も考慮して、夜間に作業する必要がある。このため、文書管理装置は、運用が開始した後も検索機能が使えないという事態が発生する。

【0031】

また、上述した特許文献１に記載された技術では、移行前のシステムにおいて、専用ツール（アンロードプログラム）を用いてデータベースのデータを出力し、出力したデータを移行後のシステムに送信すると共に、専用ツール（ロードプログラム）を用いてデータをロードする。

【0032】

このため、特許文献１は、移行後のシステムに対応した専用のプログラムが必要となる。さらに、オブジェクト指向データベース管理システム間でのデータ移行に関して記載されているに留まり、移行するシステムやデータベースの形態が異なる場合にどのようにデータを移設するのか具体的に開示していないので、移行するシステムやデータベースの形態が異なる場合に対処することができない。

【0033】

さらに、特許文献１は、アンロードプログラムおよびロードプログラムの実行をオブジェクト指向データベース管理システム上で実行するため、オブジェクト指向データベース管理システムへの負荷について考慮されておらず、依然としてオブジェクト指向データベース管理システムの運用が開始された後も検索機能が使えない問題を解決することが困難である。

【0034】

また、特許文献２は、文書データの修正要求を受けた場合に、転置インデックスに登録および削除を行うことが記載されているに留まり、データベース管理システム間のデータ移行に関して何ら言及されていない。

【0035】

また、特許文献３は、個人特定情報に識別ＩＤを付与すると共に、識別ＩＤに関連したデータを移行する場合について記載されているに留まり、データベースシステムに登録された全てのデータを移行することに関して何ら言及されていない。

【0036】

さらに、特許文献３は、データベースシステム毎に準備された識別ＩＤ生成ルールを用いて識別ＩＤを生成する。特許文献３は、データベースシステム上で識別ＩＤ生成ルールを用いて識別ＩＤを生成するため、データベースシステムへの負荷について考慮されておらず、依然としてデータベースシステムの運用が開始された後も検索機能が使えない問題を解決することが困難である。

【0037】

本発明の主たる目的は、上述した異なる装置間においてデータを移行する際に、移行先の装置において、直ちに検索することが可能なデータ移行管理装置等を提供することにある。

【課題を解決するための手段】

【0038】

上記の課題を達成すべく、本発明に係るデータ移行管理装置は、以下の構成を備えることを特徴とする。

【0039】

即ち、本発明に係るデータ移行管理装置は、
外部装置に移行対象のデータである移行データを移行する際に、前記外部装置の装置情報に基づいて装置ＩＤを生成し、前記移行データから実体と該実体の属性情報とを取得し、前記実体に含まれ、且つ検索対象となる本文情報を抽出し、前記装置ＩＤと前記属性情報とに基づいて、前記実体を特定可能な文書ＩＤを文書ＩＤ発行ルールに従って生成し、前記文書ＩＤと前記本文情報と前記属性情報とに基づいて、前記本文情報の検索に際して参照する転置インデックスを生成すると共に、前記文書ＩＤに基づいて、前記転置インデックスを逆向きに検索する際に参照する逆インデックスを生成することを特徴とする。

【0040】

また、同目的を達成すべく、本発明に係るデータ移行管理方法は、以下の構成を備えることを特徴とする。

【0041】

即ち、本発明に係るデータ移行管理方法は、
外部装置に移行対象のデータである移行データを移行する際に、前記外部装置の装置情報に基づいて装置ＩＤを生成し、前記移行データから実体と該実体の属性情報とを取得し、前記実体に含まれ、且つ検索対象となる本文情報を抽出し、前記装置ＩＤと前記属性情報とに基づいて、前記実体を特定可能な文書ＩＤを文書ＩＤ発行ルールに従って生成し、前記文書ＩＤと前記本文情報と前記属性情報とに基づいて、前記本文情報の検索に際して参照する転置インデックスを生成すると共に、前記文書ＩＤに基づいて、前記転置インデックスを逆向きに検索する際に参照する逆インデックスを生成することを特徴とする。

【0042】

尚、同目的は、上記の各構成を有するデータ移行管理装置およびデータ移行管理方法を、コンピュータによって実現するコンピュータ・プログラム、およびそのコンピュータ・プログラムが格納されている、読み取り可能な記憶媒体によっても達成される。

【発明の効果】

【0043】

本発明によれば、異なる装置間においてデータを移行する際に、移行先の装置において、直ちに検索することが可能なデータ移行管理装置等を提供することができる。

【図面の簡単な説明】

【0044】

【図1】本発明の第１の実施形態におけるデータ移行管理装置の構成を示すブロック図である。

【図2】本発明の第２の実施形態におけるデータ移行管理装置の構成を示すブロック図である。

【図3】本発明の第２の実施形態における移行データ（移行対象のデータ）を例示する図である。

【図4】本発明の第２の実施形態における装置ＩＤの構成を例示する図である。

【図5】本発明の第２の実施形態における文書ＩＤ発行ルールを例示する説明図である。

【図6】本発明の第２の実施形態における文書ＩＤの構成を例示する図である。

【図7】本発明の第２の実施形態における転置インデックスを例示する図である。

【図8】本発明の第２の実施形態における逆インデックスを例示する図である。

【図9】本発明の第３の実施形態におけるデータ移行管理装置の構成を示すブロック図である。

【図10】本発明の第２の実施形態におけるデータ移行管理装置が行う動作を示すフローチャートである。

【図11】本発明を実現可能な情報処理装置のハードウェア構成を例示的に説明するブロック図である。

【発明を実施するための形態】

【0045】

次に、本発明を模範的に実施する形態について図面を参照して詳細に説明する。尚、以下に説明する実施形態は、特許請求の範囲に係る発明を限定することはなく、また実施形態の中で説明されている構成の組み合わせの全てが発明の解決機能に必須であるとは限らない。

【0046】

＜第１の実施形態＞
まず、本発明の第１の実施形態におけるデータ移行管理装置１について、図１を参照して説明する。

【0047】

図１は、本発明の第１の実施形態におけるデータ移行管理装置１の構成を示すブロック図である。

【0048】

図１において、データ移行管理装置１は、生成部２、文書ＩＤ発行ルール１０２を有する。

【0049】

ここで、本発明の第１の実施形態に係るより具体的なデータ移行管理装置１の動作について説明する。

【0050】

ここで、一例として、本実施形態では、外部装置１０１に移行対象のデータである移行データ１００を移行する場合の動作について、詳細に説明する。尚、説明の便宜上、一例として、データ移行管理装置１は、外部装置１０１とは、異なる検索システム（転置インデックス２１０と逆インデックス２０２と不図示の検索エンジン）が搭載されたサーバ（図１には不図示）上で動作することとする。尚、このサーバを実現可能なハードウェア環境については、図１１を参照して後述する。

【0051】

尚、例えば、外部装置１０１は、データ管理装置や文書管理装置、全文検索装置等とする。但し、本発明は、これらに限定されない（以下の実施形態においても同様）。

【0052】

尚、説明の便宜上、上述した構成を例に説明するが、これに限定されない。

【0053】

生成部２は、外部装置１０１を一意に特定するための装置ＩＤを生成する（装置ＩＤおよび生成方法については、第２の実施形態において後述する）。

【0054】

また、生成部２は、文書ＩＤを生成するための文書ＩＤ発行ルール１０２を取得する（文書ＩＤ発行ルール１０２については、第２の実施形態において後述する）。

【0055】

尚、図１において、文書ＩＤ発行ルール１０２は、外部装置１０１から取得していないが、これに限らず、文書ＩＤ発行ルール１０２は、外部装置１０１から取得もよい（以下の実施形態においても同様）。

【0056】

外部装置１０１は、移行データ１００を文書情報として登録する（移行データ１００については、第２の実施形態において後述する）。

【0057】

生成部２は、移行データ１００から実体とその実体の属性情報を取得する。

【0058】

より具体的に、生成部２は、移行データ１００に格納されたレコードを先頭から順番に読み込む。さらに、生成部２は、読み込んだ移行データ１００に格納されたレコードを文書ファイルの実体とその実体の属性情報とに分離する。

【0059】

生成部２は、分離した文書ファイルの実体から文書ファイルの本文情報をテキスト形式で抽出する。生成部２は、一例として、マイクロソフト社が提供するエクセル（登録商標）やパワーポイント（登録商標）やジャストシステム社が提供する一太郎（登録商標）等の各種文書ファイルからテキストデータを特定すると共に、特定したテキストデータをテキスト形式で抽出する。尚、文書ファイルの実体から文書ファイルの本文情報をテキスト形式で抽出する手法については、一般的に知られている技術を採用することができるので本実施形態における詳細な説明は省略する（以下の実施形態においても同様）。

【0060】

次に、生成部２は、文書ファイルの属性情報と装置ＩＤとを基に文書ＩＤ発行ルール１０２に従って、文書ＩＤを生成する。

【0061】

生成部２は、テキスト形式で抽出した文書ファイルの本文情報と属性情報と文書ＩＤとに基づいて、転置インデックス２０１を生成する。さらに、生成部２は、逆インデックス２０２を生成する（転置インデックス２０１および逆インデックス２０２については、第２の実施形態において後述する）。

【0062】

データ移行管理装置１は、移行データ１００に格納された全てのレコードに対して、上述した処理を繰り返し実行する。より具体的に、生成部２は、移行データ１００に格納された全てのレコードが読み込まれたか否かを判別する。

【0063】

生成部２は、判別した結果、全てのレコードが読み込まれたと判別した場合、移行データ１００に格納されたレコードの読み込みを終了する。

【0064】

一方で、生成部２は、全てのレコードが読み込まれていない（未読み込みのレコードが存在する）と判別した場合、移行データ１００に格納されたレコードの読み込みを再実行する。

【0065】

尚、生成部２は、文書ＩＤ発行ルール１０２を外部から取得すると共に、取得した文書ＩＤ発行ルール１０２に従って、文書ＩＤを生成したが、これに限らず、生成部２は、転置インデックスを生成する定義（ルール）を外部から取得するようにしてもよい。これにより、生成部２は、取得した転置インデックスを生成する定義（ルール）に従って、転置インデックスを生成することが可能である。

【0066】

尚、転置インデックスについては、現在では一般的に知られている方式を採用することができるので本実施形態における詳細な説明は省略する（以下の実施形態においても同様）。

【0067】

また、転置インデックスを生成する手法については、一般的に知られている技術を採用することができるので本実施形態における詳細な説明は省略する（以下の実施形態においても同様）。

【0068】

尚、説明の便宜上、一例として、データ移行管理装置１は、検索システム（転置インデックス２１０と逆インデックス２０２と不図示の検索エンジン）が搭載されたサーバに設けたが、これに限らず、データ移行管理装置１ａは、検索システムと異なるサーバに設けてもよい。

【0069】

尚、説明の便宜上、一例として、本発明の実施形態は、外部装置１０１に移行データ１００を移行する場合について説明するが、これに限らず、本発明の実施形態は、データ管理装置や全文検索装置、データマイニング等に移行データ１００を移行してもよい。但し、本発明は、これら情報に限定されない（以下の実施形態においても同様）。

【0070】

このように本実施の形態に係るデータ移行管理装置１によれば、異なる装置間においてデータを移行する際に、移行先の装置において、直ちに検索することができる。その理由は、本実施形態によれば、データの移行先である外部から取得した文書ＩＤ発行ルール１０２に従って、文書ＩＤを生成することができるからである。さらに、データ移行管理装置１は、データの移行先である外部装置１０１とは、異なるシステム（サーバ）上にデータ移行管理装置１を搭載することによって、外部装置１０１にデータを移行する前や移行に際して略並行して転置インデックスおよび逆インデックスを作成することができるからである。また、データ移行管理装置１は、転置インデックスおよび逆インデックスの生成を外部装置１０１と異なるシステム（サーバ）上で行うため、外部装置１０１に負荷を掛けることなく生成することができる。

【0071】

＜第２の実施形態＞
次に、上述した本発明の第１の実施形態に係るデータ移行管理装置１を基本とする第２の実施形態について説明する。以下の説明においては、本実施形態に係る特徴的な部分を中心に説明する。その際、上述した各実施形態と同様な構成については、同一の参照番号を付すことにより、重複する説明は省略する。

【0072】

本発明の第２の実施形態におけるデータ移行管理装置１ａについて、図２乃至図８を参照して説明する。

【0073】

図２は、本発明の第２の実施形態におけるデータ移行管理装置１ａの構成を示すブロック図である。

【0074】

図２において、データ移行管理装置１ａは、抽出部３、発行部４、インデックス生成部５、文書ＩＤ発行ルール１０２を有する。

【0075】

抽出部３は、受信した移行データ１００から実体とその実体の属性情報を取得する。

【0076】

より具体的に、抽出部３は、移行データ１００（移行対象のデータ）に格納されたレコードを先頭から順番に読み込む。さらに、抽出部３は、読み込んだ移行データ１００に格納されたレコードを文書ファイルの実体と属性情報とに分離する。

【0077】

図３は、本発明の第２の実施形態における移行データ１００を例示する図である。

【0078】

図３において、一例として、移行データ１００は、１行目に項目名を示す。さらに、移行データ１００は、２行目以降に文書ファイルの実体と当該文書ファイルの実体に関する属性情報（文書配置位置情報、登録日、最終更新日、登録者、最終更新日等の情報）をテキスト形式で関連付けられた（紐付けられた）レコードを示す。

【0079】

さらに、移行データ１００は、１列目に文書ファイルの実体を示す。移行データ１００は、２列目に当該文書ファイルの実体に関する属性情報（文書配置位置情報、登録日、最終更新日、登録者、最終更新日等の情報）を示す。但し、本発明は、これら情報に限定されない（以下の実施形態においても同様）。

【0080】

また、抽出部３は、分離した属性情報を発行部４とインデックス生成部５とに送信する。

【0081】

次に、抽出部３は、分離した文書ファイルの実体から文書ファイルの本文情報をテキスト形式で抽出する（抜き出す）。さらに、抽出部３は、テキスト形式で抽出した文書ファイルの本文情報をインデックス生成部５に送信する。

【0082】

発行部４は、文書管理装置２００を一意に特定するための装置ＩＤを文書管理装置２００の装置情報を基に生成する。さらに、発行部４は、転置インデックスの作成が完了するまで、装置ＩＤを保持する（転置インデックスについては、本実施形態において後述する）。

【0083】

図４は、本発明の第２の実施形態における装置ＩＤの構成を例示する図である。

【0084】

より具体的に、装置ＩＤは、文書管理装置２００におけるサーバをインストールした日時（ｙｙｙｙｍｍｄｄｈｈｍｍｓｓ）とそのサーバのホスト名とそのサーバが搭載するネットワークカード等に付与されたマックアドレス（ＭｅｄｉａＡｃｃｅｓｓＣｏｎｔｒｏｌアドレス；以降「ＭＡＣアドレス」と称する）とに基づいて生成する。

【0085】

図４において、図４に示すフィールドＡは、サーバをインストールした日時（ｙｙｙｙｍｍｄｄｈｈｍｍｓｓ）を示す。図４に示すフィールドＢは、サーバのホスト名を示す。図４に示すフィールドＣは、サーバが搭載するネットワークカード等に付与されたＭＡＣアドレスを示す。

【0086】

尚、装置ＩＤは、サーバをインストールした日時とホスト名とＭＡＣアドレスとに基づいて生成したが、これに限らず、装置ＩＤは、サーバをインストールした日時とホスト名と装置名と装置の製造号機とに基づいて生成してもよい。このように、装置ＩＤは、文書管理装置２００を一意に特定することができる情報によって、生成すればよい。

【0087】

このように、装置ＩＤは、文書管理装置２００を構成する装置情報を基に生成するため、サーバ上に複数の文書管理装置を搭載する場合において、装置ＩＤを基に文書管理装置２００を特定することが可能となる。

【0088】

また、発行部４は、文書ＩＤを生成するための文書ＩＤ発行ルール１０２を文書管理装置２００から取得する（文書ＩＤについては、本実施形態において後述する）。

【0089】

次に、発行部４は、抽出部３から受信（取得）した文書ファイルの属性情報と生成した装置ＩＤとを基に文書ＩＤ発行ルール１０２に従って、文書ＩＤを生成する。

【0090】

さらに、発行部４は、生成した文書ＩＤをインデックス生成部５に送信する。

【0091】

ここで、一例として、文書ＩＤ発行ルール１０２は、文書ＩＤを生成するための方法を定義したものである。

【0092】

図５は、本発明の第２の実施形態における文書ＩＤ発行ルール１０２を例示する説明図である。

【0093】

より具体的に、一例として、文書ＩＤ発行ルール１０２は、ハッシュ関数計算器によって算出したハッシュ値と文書の種別ＩＤに基づいて、文書ＩＤを生成する場合について説明する。

【0094】

図５において、抽出部３によって分離した文書ファイルの属性情報と発行部４によって生成した装置ＩＤとに基づいて、ハッシュ関数計算器によって、ハッシュ値を生成する。

【0095】

さらに、文書ＩＤ発行ルール１０２は、生成したハッシュ値と文書ファイルの種別を２桁の数値で示した文書の種別ＩＤ（１１：フォルダ、１２：ファイル、１３：ショートカット）とに基づき所定の演算によって、文書ＩＤを生成する。

【0096】

尚、本実施形態では、説明の便宜上、数値を例に説明したが、これに限定されない。

【0097】

図６は、本発明の第２の実施形態における文書ＩＤの構成を例示する図である。図６において、図６に示すフィールドＡは、文書の種別ＩＤを示す。図６に示すフィールドＢは、ハッシュ関数計算器によって、求められたハッシュ値を示す。

【0098】

尚、文書ＩＤ発行ルール１０２は、ハッシュ関数によって文書ＩＤを生成する方法を定義したが、これに限定されない。さらに、文書ＩＤを発行する手法については、一般的に知られている技術を採用することができるので本実施形態における詳細な説明は省略する（以下の実施形態においても同様）。

【0099】

インデックス生成部５は、抽出部３から送信されたテキスト形式で抽出した文書ファイルの本文情報と属性情報とを受信する。

【0100】

さらに、インデックス生成部５は、発行部４から送信された文書ＩＤを受信する。

【0101】

インデックス生成部５は、テキスト形式で抽出した文書ファイルの本文情報と属性情報と文書ＩＤとに基づいて、転置インデックス２０１を生成する。また、インデックス生成部５は、生成した転置インデックス２０１を再度転置した逆インデックス２０２を生成する。

【0102】

逆インデックス２０２は、文書ＩＤから転置インデックスを逆向きに辿るためのポインタデータである。

【0103】

図７は、本発明の第２の実施形態における転置インデックス２０１を例示する図である。

【0104】

より具体的に、図７において、一例として、転置インデックス２０１は、１行目に項目名を示す。さらに、転置インデックス２０１は、２行目以降に不図示の検索エンジンによって全文検索を行う際に、検索の対象となる文書ファイルに含まれる単語（キー）情報とその単語（キー）情報を識別するためのキーＩＤと単語（キー）情報が含まれる文書ＩＤとを関連付けられた（紐付けられた）レコードを示す。

【0105】

さらに、転置インデックス２０１は、１列目にキーＩＤを示す。転置インデックス２０１は、２列目にキー情報を示す。転置インデックス２０１は、３列目に文書ＩＤを示す。但し、本発明は、これら情報に限定されない（以下の実施形態においても同様）。

【0106】

尚、検索エンジンについては、現在では一般的に知られている方式を採用することができるので本実施形態における詳細な説明は省略する（以下の実施形態においても同様）。

【0107】

図８は、本発明の第２の実施形態における逆インデックス２０２を例示する図である。

【0108】

図８において、一例として、逆インデックス２０２は、１行目に項目名を示す。さらに、逆インデックス２０２は、２行目以降に転置インデックスを構成する文書ＩＤとキーＩＤとを関連付けられた（紐付けられた）レコードを示す。

【0109】

さらに、逆インデックス２０２は、１列目に文書ＩＤを示す。逆インデックス２０２は、２列目にキーＩＤを示す。但し、本発明は、これら情報に限定されない（以下の実施形態においても同様）。

【0110】

逆インデックス２０２は、転置インデックス２０１を再転置することによって生成する。

【0111】

以下の説明において、説明の便宜上、移行前の文書管理装置を旧文書管理装置と称する。また、移行後（旧文書管理装置と異なる）文書管理装置を文書管理装置２００と称する。ここで、旧文書管理装置と異なる文書管理装置とは、例えば、文書管理装置を構成するハードウェアが異なる場合やＯＳの種別が異なる場合、データベースのバージョンが異なる場合等とする。（以下の実施形態においても同様）。

【0112】

次に、本発明の第２の実施形態に係るより具体的なデータ移行管理装置１ａの動作について説明する。

【0113】

ここでは、一例として、旧文書管理装置を文書管理装置２００に装置をリプレイスする際に、旧文書管理装置から文書管理装置２００にデータを移行する場合の動作について、詳細に説明する。尚、説明の便宜上、一例として、データ移行管理装置１ａは、文書管理装置２００および旧文書管理装置とは、異なる検索システム（転置インデックス２１０と逆インデックス２０２と不図示の検索エンジン）が搭載されたサーバ上で動作することとする。

【0114】

尚、説明の便宜上、上述した構成を例に説明するが、これに限定されない（以下の実施形態においても同様）。

【0115】

発行部４は、文書管理装置２００を一意に特定するための装置ＩＤを生成する。

【0116】

また、発行部４は、文書ＩＤを生成するための文書ＩＤ発行ルール１０２を文書管理装置２００から取得する。

【0117】

不図示の旧文書管理装置は、旧文書管理装置に登録されている文書情報を移行データ１００として、文書管理装置２００と抽出部３とに送信する。

【0118】

文書管理装置２００は、受信した移行データ１００を文書情報として登録する。

【0119】

抽出部３は、受信した移行データ１００から実体とその実体の属性情報を取得する。

【0120】

より具体的に、抽出部３は、受信した移行データ１００に格納されたレコードを先頭から順番に読み込む。さらに、抽出部３は、読み込んだ移行データ１００に格納されたレコードを文書ファイルの実体と属性情報とに分離する。

【0121】

また、抽出部３は、分離した属性情報を発行部４とインデックス生成部５とに送信する。

【0122】

抽出部３は、分離した文書ファイルの実体から文書ファイルの本文情報をテキスト形式で抽出する。さらに、抽出部３は、テキスト形式で抽出した文書ファイルの本文情報をインデックス生成部５に送信する。

【0123】

次に、発行部４は、抽出部３から受信（取得）した文書ファイルの属性情報と装置ＩＤとを基に文書ＩＤ発行ルール１０２に従って、文書ＩＤを生成する。

【0124】

さらに、発行部４は、生成した文書ＩＤをインデックス生成部５に送信する。

【0125】

インデックス生成部５は、抽出部３から送信されたテキスト形式で抽出した文書ファイルの本文情報と属性情報とを受信する。

【0126】

さらに、インデックス生成部５は、発行部４から送信された文書ＩＤを受信する。

【0127】

インデックス生成部５は、テキスト形式で抽出した文書ファイルの本文情報と属性情報と文書ＩＤとに基づいて、転置インデックス２０１を生成する。さらに、インデックス生成部５は、逆インデックス２０２を生成する。

【0128】

データ移行管理装置１ａは、移行データ１００に格納された全てのレコードに対して、上述した処理を繰り返し実行する。より具体的に、抽出部３は、移行データ１００に格納された全てのレコードが読み込まれたか否かを判別する。

【0129】

抽出部３は、判別した結果、全てのレコードが読み込まれたと判別した場合、移行データ１００に格納されたレコードの読み込みを終了する。

【0130】

一方で、抽出部３は、全てのレコードが読み込まれていない（未読み込みのレコードが存在する）と判別した場合、移行データ１００に格納されたレコードの読み込みを再実行する。

【0131】

このように本実施の形態に係るデータ移行管理装置１ａによれば、第１の実施形態において説明した効果を享受できると共に、さらに、効率よく文書ＩＤと転置インデックスを生成することができる。その理由は、データ移行管理装置１ａは、抽出部３、発行部４、インデックス生成部５を設けることで、生成部２に集中する処理を分散することができるからである。

【0132】

＜第３の実施形態＞
次に、上述した本発明の第２の実施形態に係るデータ移行管理装置１ａを基本とする第３の実施形態について説明する。以下の説明においては、本実施形態に係る特徴的な部分を中心に説明する。その際、上述した各実施形態と同様な構成については、同一の参照番号を付すことにより、重複する説明は省略する。

【0133】

図９は、本発明の第３の実施形態におけるデータ移行管理装置１ｂの構成を示すブロック図である。

【0134】

また、図１０は、本発明の第３の実施形態におけるデータ移行管理装置１ｂが行う動作を示すフローチャートである。係るフローチャートに沿ってデータ移行管理装置１ｂの動作手順を説明する。

【0135】

図９において、データ移行管理装置１ｂは、読取部１０、テキスト抽出部１１、第１の発行部１２、第２の発行部１３、インデックス生成部５、文書ＩＤ発行ルール１０２を有する。

【0136】

尚、読取部１０、テキスト抽出部１１は、上述した第２の実施形態における抽出部３に相当する。また、第１の発行部１２、第２の発行部１３は、上述した第２の実施形態における発行部４に相当する。

【0137】

次に、本発明の第３の実施形態に係るより具体的なデータ移行管理装置１ｂの動作について説明する。

【0138】

ここでは、一例として、旧文書管理装置から文書管理装置２００に装置をリプレイスする際に、データを移行する場合の動作について、詳細に説明する。

【0139】

ステップＳ１：
第１の発行部１２は、文書管理装置２００を一意に特定するための装置ＩＤを生成する。

【0140】

ステップＳ２：
また、第１の発行部１２は、文書ＩＤを生成するための文書ＩＤ発行ルール１０２を文書管理装置２００から取得する。

【0141】

不図示の旧文書管理装置は、旧文書管理装置に登録されている文書情報を移行データ１００（移行対象のデータ）として、文書管理装置２００と読取部１０とに送信する。

【0142】

文書管理装置２００は、受信した移行データ１００を文書情報として登録する。

【0143】

ステップＳ３：
読取部１０は、受信した移行データ１００に格納されたレコードを先頭から順番に読み込む。

【0144】

ステップＳ４：
さらに、読取部１０は、読み込んだ移行データ１００を文書ファイルの実体と属性情報とに分離する。

【0145】

また、読取部１０は、分離した属性情報を第２の発行部１３とインデックス生成部５とに送信する。

【0146】

さらに、読取部１０は、分離した文書ファイルの実体をテキスト抽出部１１に送信する。

【0147】

ステップＳ５：
テキスト抽出部１１は、読取部１０から受信した文書ファイルの実体から文書ファイルの本文情報をテキスト形式で抽出する。さらに、テキスト抽出部１１は、テキスト形式で抽出した文書ファイルの本文情報をインデックス生成部５に送信する。

【0148】

ステップＳ６：
次に、第２の発行部１３は、テキスト抽出部１１から受信（取得）した文書ファイルの属性情報と装置ＩＤとを基に文書ＩＤ発行ルール１０２に従って、文書ＩＤを生成する。

【0149】

さらに、第２の発行部１３は、生成した文書ＩＤをインデックス生成部５に送信する。

【0150】

インデックス生成部５は、読取部１０から送信された属性情報を受信する。

【0151】

さらに、インデックス生成部５は、テキスト抽出部１１から送信されたテキスト形式で抽出した文書ファイルの本文情報を受信する。

【0152】

また、インデックス生成部５は、第２の発行部１３から送信された文書ＩＤを受信する。

【0153】

ステップＳ７：
インデックス生成部５は、テキスト形式で抽出した文書ファイルの本文情報と属性情報と文書ＩＤとに基づいて、転置インデックス２０１を生成する。さらに、インデックス生成部５は、逆インデックス２０２を生成する。

【0154】

ステップＳ８：
データ移行管理装置１ｂは、移行データ１００に格納された全てのレコードに対して、上述した処理を繰り返し実行する。より具体的に、読取部１０は、移行データ１００に格納された全てのレコードが読み込まれたか否かを判別する。

【0155】

ステップＳ８における「ＮＯ」：
読取部１０は、判別した結果、全てのレコードが読み込まれたと判別した場合、移行データ１００に格納されたレコードの読み込みを終了する。

【0156】

ステップＳ８における「ＹＥＳ」：
一方で、読取部１０は、全てのレコードが読み込まれていない（未読み込みのレコードが存在する）と判別した場合、ステップＳ３に戻り移行データ１００に格納されたレコードの読み込みを再実行する。

【0157】

このように本実施の形態に係るデータ移行管理装置１ｂによれば、各実施形態において説明した効果を享受できると共に、さらに、効率よく文書ＩＤと転置インデックスを生成することができる。その理由は、データ移行管理装置１ｂは、読取部１０、テキスト抽出部１１、第１の発行部１２、第２の発行部１３を設けることで、抽出部３および発行部４に集中する処理を分散することができるからである。

【0158】

（ハードウェア構成例）
上述した実施形態において図面に示した各部は、ソフトウェアプログラムの機能単位（ソフトウェアモジュール）と捉えることができる。この場合のハードウェア環境の一例を、図１１を参照して説明する。

【0159】

図１１は、本発明の模範的な実施形態に係るデータ移行管理装置を実行可能な情報処理装置３００（コンピュータ）の構成を例示的に説明する図である。即ち、図１１は、図１に示したデータ移行管理装置１、或いは、図２に示したデータ移行管理装置１ａ、図９に示したデータ移行管理装置１ｂの全体または一部のデータ移行管理装置を実現可能なサーバ等のコンピュータ（情報処理装置）の構成であって、上述した実施形態における各機能を実現可能なハードウェア環境を表す。

【0160】

図１１に示した情報処理装置３００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）３０１、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）３０２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）３０３、ハードディスク（記憶装置）３０４、並びに外部装置との通信インタフェース（Ｉｎｔｅｒｆａｃ；以降、「Ｉ／Ｆ」と称する）３０５を備え、これらの構成がバス（通信線）３０６を介して接続された一般的なコンピュータである。

【0161】

そして、上述した実施形態を例に説明した本発明は、図１１に示した情報処理装置３００に対して、その説明において参照したブロック構成図（図１、図２、図９）或いはフローチャート（図１０）の機能を実現可能なコンピュータ・プログラムを供給した後、そのコンピュータ・プログラムを、当該ハードウェアのＣＰＵ３０１に読み出して実行することによって達成される。また、当該装置内に供給されたコンピュータ・プログラムは、読み書き可能な一時記憶メモリ（ＲＡＭ３０３）またはハードディスク３０４等の不揮発性の記憶デバイスに格納すれば良い。

【0162】

また、前記の場合において、当該ハードウェア内へのコンピュータ・プログラムの供給方法は、ＣＤ−ＲＯＭ等の各種記録媒体を介して当該装置内にインストールする方法や、インターネット等の通信回線を介して外部よりダウンロードする方法等のように、現在では一般的な手順を採用することができる。そして、このような場合において、本発明は、係るコンピュータ・プログラムを構成するコード或いは、そのコードが格納された記憶媒体によって構成されると捉えることができる。

【符号の説明】

【0163】

１データ移行管理装置
１ａデータ移行管理装置
１ｂデータ移行管理装置
２生成部
３抽出部
４発行部
５インデックス生成部
１０読取部
１１テキスト抽出部
１２第１の発行部
１３第２の発行部
１００移行データ
１０１外部装置
１０２文書ＩＤ発行ルール
２００文書管理装置
２０１転置インデックス
２０２逆インデックス
３００情報処理装置
３０１ＣＰＵ
３０２ＲＯＭ
３０３ＲＡＭ
３０４ハードディスク
３０５通信インタフェース
３０６バス

【図1】