(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-04-12
(45)【発行日】2024-04-22
(54)【発明の名称】アーカイブ支援システム
(51)【国際特許分類】
G06Q 50/20 20120101AFI20240415BHJP
G06T 7/00 20170101ALI20240415BHJP
G06T 7/60 20170101ALI20240415BHJP
G06N 20/00 20190101ALI20240415BHJP
【FI】
G06Q50/20
G06T7/00 350B
G06T7/60 200Z
G06N20/00 130
(21)【出願番号】P 2019208158
(22)【出願日】2019-11-18
【審査請求日】2022-10-28
(73)【特許権者】
【識別番号】000002299
【氏名又は名称】清水建設株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】松本 隆史
(72)【発明者】
【氏名】平井 直樹
【審査官】庄司 琴美
(56)【参考文献】
【文献】米国特許出願公開第2003/0130992(US,A1)
【文献】特開2019-040260(JP,A)
【文献】国際公開第2010/001792(WO,A1)
【文献】特開2018-206250(JP,A)
【文献】中国特許出願公開第110399509(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06Q 10/00 - 99/00
G06T 7/00
G06T 7/60
G06N 20/00
(57)【特許請求の範囲】
【請求項1】
図面のアーカイブ作業を支援するための支援システムであって、
前記図面の画像に含まれる図面
名称欄のスタイルに関する教師データを用いて、
前記画像に含まれる図面
名称欄のスタイルを学習させ、図面
名称欄のスタイルを特定するための図面モデルを記録した学習結果記録部と、
前記図面モデルを用いて、
図面の画像に含まれる図面
名称欄のスタイルを抽出し、抽出した
前記スタイルからメタデータに関するデータを抽出する抽出部とを備え
、
抽出した前記データをデータ構造化して、前記スタイルと前記データの内容を記述したデータ構造化文書を作成することを特徴とするアーカイブ支援システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、アーカイブ支援システムに関し、例えば歴史的建築図面のデジタルアーカイブ(画像群)からメタデータを抽出する作業を支援するアーカイブ支援システムに関するものである。
【背景技術】
【0002】
従来、様々な資料(図書・文書・絵画・図面等)のデジタルアーカイブ化が、国内外の図書館・文書館・博物館等で進められており、画像資料がデジタル化され、メタデータ(目録情報、書誌情報)のインデックス(例えば、IIIFなど)とともに検索可能になりつつある。
【0003】
そうした中、画像解析技術や機械学習により、デジタル画像から、そのコンテンツを分析・抽出する技術が出てきている。例えば、ROIS-DS人文学オープンデータ共同利用センターおよび人間文化研究機構国文学研究資料館では、古文書におけるくずし字を認識しテキスト化するシステムを発表している。
【0004】
また、スイスのローザンヌ工科大学においては、デジタルヒューマニティーズ研究の一部として、装飾文字や図表など、様々なレイアウト・コンテンツが混在する資料から、深層学習によってセグメントを抽出する研究が行われている(例えば、非特許文献1を参照)。
【先行技術文献】
【非特許文献】
【0005】
【文献】Oliveira, Sofia Ares, Benoit Seguin, and Frederic Kaplan. "dhSegment: A generic deep-learning approach for document segmentation." In 2018 16th International Conference on Frontiers in Handwriting Recognition (ICFHR), pp. 7-12. IEEE, 2018.
【文献】松波秀子、川上悠介、勝木祐仁、奥山美奈子「『設計図』の図面名称欄の変遷」『明治大正の邸宅 清水組作成彩色図の世界』柏書房, 2009, 268-261
【発明の概要】
【発明が解決しようとする課題】
【0006】
ところで、建築分野においても、アーカイブの重要性が認識されつつある。国立近現代建築資料館においては、建築図面等の建築関係資料のアーカイブを促進すべく、最近、第一回アーキビスト講習会が開催され、原資料の取り扱い事例を紹介している。
【0007】
建築図面のアーカイブ化、およびデジタルアーカイブ化においては、まず膨大な資料の受入・整理に始まり、その目録作成やデータベースへの入力、デジタルデータ化と公開の多くのプロセスが手作業で行われており大変な負担になっている。
【0008】
現状では、アーカイブ機関が収蔵する図面等の資料群に対し、まず人が手作業で資料を受け入れ、膨大な目録作成・メタデータの書き起こしを行うことを前提として、デジタルアーカイブ化とデジタルアーカイブの公開が行われている。しかしながら、上記で取り上げたような機械学習の特性を生かせば、まず先に図面をデジタル画像化し、その資料群から機械的にメタデータの抽出を行うことが可能であり、アーカイブ資料が増えれば増えるほど、その精度を上げることが可能である。そのような機械学習のシステムを作ることによって、アーカイブの作業および分析の労力が大幅に軽減される。
【0009】
一方、現在、その歴史的価値が再認識され、文化財保存・記録保存のための分析や活用のための修繕などが急務になっている近代建築物の歴史的図面においては、各設計者や施工者において独自の図面スタイルが作られており、そのスタイルで整理されてメタデータが記載されているのが一般的である。それらは図面の欄や印として現れ、同じ図面作成者でも
図5(1)、(2)のように時期や部署によってスタイルが違ったりする。また非特許文献2にみられるように、図面作成者(部署等)が違えばスタイルは違ってくる。違うスタイル間でも構造の共通性がみられることもある。したがって、建築図面のスタイルには多様性があり、かつ構造(例えば図面名称欄)があって、その構造によって記載内容がメタデータとして定義されている、と考えることができる。
【0010】
そこで、本発明者は、このことに着目し、デジタル化された大量の図面画像群から、機械学習によりレイアウトの分析をし、メタデータが記載されているスタイル部分を抽出する本発明に至った。
【0011】
本発明は、上記に鑑みてなされたものであって、アーカイブの作業および分析の労力を軽減するためのアーカイブ支援システムを提供することを目的とする。
【課題を解決するための手段】
【0012】
上記した課題を解決し、目的を達成するために、本発明に係るアーカイブ支援システムは、図面のアーカイブ作業を支援するための支援システムであって、図面の画像に含まれる図面のスタイルに関する教師データを用いて、画像に含まれる図面のスタイルを学習させ、図面のスタイルを特定するための図面モデルを記録した学習結果記録部と、図面モデルを用いて、画像に含まれる図面のスタイルを抽出し、抽出したスタイルからメタデータに関するデータを抽出する抽出部とを備えたことを特徴とする。
【0013】
また、本発明に係る他のアーカイブ支援システムは、上述した発明において、図面のスタイルは、図面名称欄に関するスタイルであることを特徴とする。
【発明の効果】
【0014】
本発明に係るアーカイブ支援システムは、図面のアーカイブ作業を支援するための支援システムであって、図面の画像に含まれる図面のスタイルに関する教師データを用いて、画像に含まれる図面のスタイルを学習させ、図面のスタイルを特定するための図面モデルを記録した学習結果記録部と、図面モデルを用いて、画像に含まれる図面のスタイルを抽出し、抽出したスタイルからメタデータに関するデータを抽出する抽出部とを備えたので、アーカイブの作業および分析の労力を軽減するためのアーカイブ支援システムを提供することができるという効果を奏する。
【0015】
また、本発明に係る他のアーカイブ支援システムは、上述した発明において、図面のスタイルは、図面名称欄に関するスタイルであるので、図面名称欄に記載された情報をもとにメタデータに関するデータを抽出することができるという効果を奏する。
【図面の簡単な説明】
【0016】
【
図1】
図1は、本発明に係るアーカイブ支援システムの実施の形態を示す概略構成図である。
【
図3】
図3は、本実施の形態の概略フローチャート図である。
【発明を実施するための形態】
【0017】
以下に、本発明に係るアーカイブ支援システムの実施の形態を図に基づいて詳細に説明する。なお、この実施の形態によりこの発明が限定されるものではない。
【0018】
図1に示すように、本発明に係るアーカイブ支援システム100は、データベース10と、支援サーバー12と、ユーザー端末14とを備えている。このアーカイブ支援システム100は、ネットワークを介して他機関の同様のアーカイブ支援システムに接続されている。
【0019】
データベース10は、デジタルデータ化された多数の建築図面の画像を記録するものである。建築図面の画像は、紙の図面資料をスキャナ等で読み取って入力される。図の例では、スタイルの異なる図面資料群A、B、Cがそれぞれ複数のデジタル形式のファイルとしてデータベース10に記録されている場合を示している。
図2に示すように、図面資料群Aは、No.1~No.Nで構成され、図面資料群Bはア-1~ア-X、イ-1~イ-Xで構成され、図面資料群Cは1.jpg~X.jpgで構成される。なお、このデータベース10には、画像から後述の方法により抽出された文字群、画像オブジェクト、メタデータ情報、データ構造化文書なども記録される。また、データベース10中には、画像中に情報として現れないメタデータ(例えば収蔵年月日や寄贈者、研究者による付記など)を記録してもよい。
図2の例では、図面資料群Cの各ファイルに、制作年のメタデータが記録されている。なお、他機関のアーカイブ支援システムにより公開されている図面資料群を一時的に記録し、アーカイブ支援システム100における学習、分析のために使用してもよい。
【0020】
支援サーバー12は、アーカイブの作成を支援するコンピュータであり、データベース10とユーザー端末14に接続している。この支援サーバー12は、制御部16、教師データ記録部18、学習結果記録部20を備えている。
【0021】
制御部16は、多数の図面の画像群から、機械学習によりレイアウトの分析をし、メタデータが記載されているスタイル部分を抽出するためのものである。この制御部16は、CPU、RAM、ROM等を用いて学習処理、レイアウト分析、文字画像抽出、項目内容抽出等の各処理を行なうように構成される。この処理は、学習処理部22、レイアウト分析部24、文字画像抽出部26、項目内容抽出部28によって実行される。
【0022】
学習処理部22は、図面のスタイルが設定された画像を含む教師データを用いて、未知の画像において図面のスタイルを特定するための図面モデルを生成する学習処理を実行するものである。具体的には、学習処理部22は、画像と、この画像に含まれる図面のスタイル(例えば図面名称欄)を示した教師データを用いて機械学習を行なう。この学習において、学習処理部22は、例えば、複数の画像から繰り返し現れるパターンを解析し、画像間での同一スタイルを特定するための図面モデルを生成し、生成した図面モデルを学習結果記録部20に登録する。
【0023】
レイアウト分析部24は、学習結果記録部20に記録されている図面モデルを用いて、分析対象の画像においてレイアウトを分析するものである。具体的には、レイアウト分析部24は、画像解析により、分析対象の画像のレイアウトを分析し、画像内の図・文字(コンテンツ)とスタイルを分離する。スタイルは、例えば罫線や図面名称欄などで表される。レイアウト分析部24は、例えば、分析対象の画像内のどの部分が図面名称欄に相当するかの分析を行って、図面モデルとの一致度を判定する処理を行ってもよい。この結果、一致度が所定の閾値以上のものを図面のスタイルが同一(共通する)と判定し、一致度が所定の閾値未満のものを、図面のスタイルが異なると判定してもよい。
【0024】
文字画像抽出部26は、スタイル内の各項目領域に含まれる文字、画像を認識と抽出処理を実行する。本実施の形態では、同じスタイル部分を持つ図面は同じ図面作成者によるものと仮定し、例えば、レイアウト分析部24で分離したスタイル内(例えば図面名称欄)の各項目領域から文字、画像オブジェクトを抽出する。ここで、活字においてはOCRで、手書き文字においては画像解析で、押印に関しては画像データとして、文字群や画像オブジェクトを抽出する。抽出した文字群や画像オブジェクトはデータベース10に記録してもよい。なお、手書き文字の文字画像と関連付けられたテキスト文字からなる教師データや、印影などの画像オブジェクトと関連付けられた教師データを用いた機械学習により、認識モデルを生成し、この認識モデルを用いて、スタイル内の各項目情報から切り出した文字、印影などの画像オブジェクトなどを抽出してもよい。
【0025】
項目内容抽出部28は、文字画像抽出部26で抽出した文字、画像から、スタイル内に記載された各項目の種類(例えば工事名、仕様、縮尺、日付、承認印など)の情報を抽出するものである。抽出した情報はデータベース10に記録される。なお、スタイル内に記載された各項目の種類と関連付けられた教師データを用いた機械学習により、認識モデルを生成し、この認識モデルを用いて、文字、画像からスタイル内に記載された各項目の種類を抽出してもよい。また、項目内容抽出部28は、抽出した情報をもとに図面をデータ構造化して、スタイルと各項目の内容を記述したデータ構造化文書を作成してもよい。
【0026】
教師データ記録部18は、機械学習に用いられる複数の教師データを記録するものである。教師データは、機械学習を行なう前に予め記録されていてもよいし、ユーザーがユーザー端末14を介して記録したり、更新してもよい。
【0027】
学習結果記録部20は、図面のスタイルを分析するための図面モデルを記録するものである。図面モデルは、教師データを用いて機械学習を行なった場合に記録される。
【0028】
ユーザー端末14は、ユーザーが用いるコンピュータ端末である。このユーザー端末14は、図示しない制御部、入力部(キーボード等)、出力部(ディスプレイ等)からなる編集インターフェースを備えている。ユーザーは、ユーザー端末14を介してデータベース10、支援サーバー12を利用することができる。
【0029】
上記のように構成したアーカイブ支援システム100を用いて、図面のスタイルが共通する画像間でのレイアウトの学習を行い、スタイル内の各項目に入っている文字や画像オブジェクトの判別精度を上げていき、そこから抽出される各項目の情報をデータベース10に記録する。機械学習により、それぞれの項目の内容(例えば日時・物件名・担当者等)を推定し例示することで、アーカイブ作業者の確認・入力を簡易にすることができる。なお、図面のスタイルが異なる画像間のメタデータ情報の関連性を分析し、異なるスタイル間の同一項目を判別できるようにしてもよい。また、異なる図面のスタイルの資料群を、それぞれ別のセットとしてグループ分けしつつ、別スタイルで共通するメタデータの項目をグループ間で共有し、判別精度を上げていってもよい。
【0030】
次に、上記のアーカイブ支援システム100による処理手順の一例を説明する。
なお、以下の処理では、初期の教師データを用いて機械学習を行ってから、レイアウトを分析するものとする。
図3に示すように、まず、図面資料(資料群A)をスキャンして、データベース10に画像ファイル群を保持する(ステップS1)。次に、学習処理部22により、複数の画像から繰り返し現れるパターンを解析し、画像間での同一スタイルを特定する(ステップS2)。次に、レイアウト分析部24の画像処理により、画像内の図・文字とスタイルを分離する(ステップS3)。
【0031】
次に、文字画像抽出部26により、スタイル内に記載された文字群、印影等の項目を抽出する(ステップS4)。続いて、項目内容抽出部28により、スタイル内に記載された各項目の種類を抽出する。
【0032】
次に、図面の画像をデータ構造化して、スタイルと各項目の内容を記述したデータ構造化文書を作成する(ステップS5)。データ構造化文書の形式としては、例えば、スタイルと各項目を記述したテキストをタグで囲って構造化したXML(eXtensible Markup Language)形式を採用してもよい。
【0033】
次に、ユーザーが、ユーザー端末14の編集インターフェース上でデータ構造化文書の修正、意味づけを行う(ステップS6)。
【0034】
次に、他の図面資料群(資料群B)についても同様にステップS1~S6の処理を行う(ステップS7)。次に、例えば
図4に示すように、異なる図面資料群(資料群A、B)間で画像間の関連性とメタデータ情報の関連性を分析し、異なるスタイル間の同一項目を判別する(ステップS8)。次に、ユーザーが、ユーザー端末14の編集インターフェース上でデータ構造化文書における類似情報の項目の統合修正を行う(ステップS9)。資料が増えたらステップS1に戻ってステップS1~S9を繰り返し、判別精度を上げる。なお、他機関のアーカイブ支援システム等が公開している図面資料群をネットワーク等を通じて取り寄せ、学習処理部22で学習させることで、機械学習の精度を上げてもよい。
【0035】
このようにすることで、膨大な図面資料から読み取れるデータの入力を楽にすることができる。また、ユーザーは、判別された各項目のメタデータ情報に基づいて、図面資料群から任意の図面資料(例えば同じ設計事務所によるもの、同じ印影を持つもの、特定の期間に作成されたものなど)を容易に分類、検索、抽出、リスト化、出力することができるようになる。
【0036】
本実施の形態によれば、文字や図、絵、印など様々な情報が混在する図面において、スタイルとコンテンツを分離し、スタイルの類似性の分析をし、スタイルごとの項目の抽出を行うことができる。また、異なるスタイル間での同一項目を学習し、各図面に対する項目とスタイルの一覧をつくることで、図面群を項目によってソーティングしたり、コンテンツによって検索したりすることも可能である。
【0037】
したがって、アーカイブ資料の整理・分析の労力を劇的に下げ、アーカイブの作業および分析の労力を軽減することができる。また、今まで手作業では見つけることが困難であった、図面資料間の関係性を抽出することができる。
【0038】
上記の実施の形態においては、建築図面に適用する場合を例にとり説明したが、本発明の図面はこれに限るものではない。例えば機械などに関する図面にも適用可能である。このような図面に適用しても、上記と同様の作用効果を奏することができる。
【0039】
以上説明したように、本発明に係るアーカイブ支援システムは、図面のアーカイブ作業を支援するための支援システムであって、図面の画像に含まれる図面のスタイルに関する教師データを用いて、画像に含まれる図面のスタイルを学習させ、図面のスタイルを特定するための図面モデルを記録した学習結果記録部と、図面モデルを用いて、画像に含まれる図面のスタイルを抽出し、抽出したスタイルからメタデータに関するデータを抽出する抽出部とを備えたので、アーカイブの作業および分析の労力を軽減するためのアーカイブ支援システムを提供することができる。
【0040】
また、本発明に係る他のアーカイブ支援システムは、上述した発明において、図面のスタイルは、図面名称欄に関するスタイルであるので、図面名称欄に記載された情報をもとにメタデータに関するデータを抽出することができる。
【産業上の利用可能性】
【0041】
以上のように、本発明に係るアーカイブ支援システムは、建設会社内の図面資料のみならず、膨大な図面資料を保有する公文書館や図書館などの公的アーカイブ機関、民間博物館・企業社史資料室などの民間アーカイブ機関における図面資料のアーカイブからメタデータを抽出する作業や分析に有用であり、特に、作業や分析の労力を軽減するのに適している。
【符号の説明】
【0042】
10 データベース
12 支援サーバー
14 ユーザー端末
16 制御部
18 教師データ記録部
20 学習結果記録部
22 学習処理部
24 レイアウト分析部
26 文字画像抽出部
28 項目内容抽出部(抽出部)
100 アーカイブ支援システム