IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立リアルエステートパートナーズの特許一覧

特開2024-17279データ利用支援システム、及びデータ利用支援方法
<>
  • 特開-データ利用支援システム、及びデータ利用支援方法 図1
  • 特開-データ利用支援システム、及びデータ利用支援方法 図2
  • 特開-データ利用支援システム、及びデータ利用支援方法 図3
  • 特開-データ利用支援システム、及びデータ利用支援方法 図4
  • 特開-データ利用支援システム、及びデータ利用支援方法 図5A
  • 特開-データ利用支援システム、及びデータ利用支援方法 図5B
  • 特開-データ利用支援システム、及びデータ利用支援方法 図6A
  • 特開-データ利用支援システム、及びデータ利用支援方法 図6B
  • 特開-データ利用支援システム、及びデータ利用支援方法 図7A
  • 特開-データ利用支援システム、及びデータ利用支援方法 図7B
  • 特開-データ利用支援システム、及びデータ利用支援方法 図8
  • 特開-データ利用支援システム、及びデータ利用支援方法 図9
  • 特開-データ利用支援システム、及びデータ利用支援方法 図10
  • 特開-データ利用支援システム、及びデータ利用支援方法 図11
  • 特開-データ利用支援システム、及びデータ利用支援方法 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024017279
(43)【公開日】2024-02-08
(54)【発明の名称】データ利用支援システム、及びデータ利用支援方法
(51)【国際特許分類】
   G06Q 50/26 20240101AFI20240201BHJP
【FI】
G06Q50/26
【審査請求】未請求
【請求項の数】15
【出願形態】OL
(21)【出願番号】P 2022119815
(22)【出願日】2022-07-27
(71)【出願人】
【識別番号】520366710
【氏名又は名称】株式会社日立リアルエステートパートナーズ
(74)【代理人】
【識別番号】110000176
【氏名又は名称】弁理士法人一色国際特許事務所
(72)【発明者】
【氏名】加藤 正恭
(72)【発明者】
【氏名】大林 結
(72)【発明者】
【氏名】野寄 祐樹
(72)【発明者】
【氏名】伊藤 信治
(72)【発明者】
【氏名】江崎 博嗣
(72)【発明者】
【氏名】山本 宏一
(72)【発明者】
【氏名】山下 知子
【テーマコード(参考)】
5L049
【Fターム(参考)】
5L049CC35
(57)【要約】
【課題】オープンデータ等として提供される法令や条例のデータを効率よく構造化して体系的に管理する。
【解決手段】データ利用支援システムは、法令や条例等を記述した電子データである条文データに含まれている条文に階層的に付与される番号である条文番号の記述形式を示す情報である記述パターンを複数記憶し、構造化の対象となる条文データを取得し、取得した条文データと記述パターンとを対照することにより、条文データの記述パターンを推定し、推定した記述パターンに基づき、条文データを構造化したデータである構造化データを生成して出力する。記述パターンは、例えば、条文番号の各階層の記述形式の組み合わせにより定義される。記述形式は、例えば、条文番号の修飾語、条文番号の表記に使用する文字の種類、及び条文番号の枝番の使用可否のうちの少なくともいずれかの組み合わせにより表される。
【選択図】図3
【特許請求の範囲】
【請求項1】
プロセッサ及び記憶装置を有する情報処理装置を用いて構成され、
法令や条例等を記述した電子データである条文データに含まれている条文に階層的に付与される番号である条文番号の記述形式を示す情報である記述パターンを複数記憶し、
構造化の対象となる条文データを取得し、
取得した前記条文データを前記記述パターンと対照することにより、前記条文データの記述パターンを推定し、
推定した前記記述パターンに基づき、前記条文データを構造化したデータである構造化データを生成して出力する、
データ利用支援システム。
【請求項2】
請求項1に記載のデータ利用支援システムであって、
前記記述パターンは、前記条文番号の各階層の記述形式の組み合わせにより定義される、
データ利用支援システム。
【請求項3】
請求項1に記載のデータ利用支援システムであって、
前記記述形式は、前記条文番号の修飾語、前記条文番号の表記に使用する文字の種類、及び前記条文番号の枝番の使用可否のうちの少なくともいずれかの組み合わせにより表される、
データ利用支援システム。
【請求項4】
請求項1に記載のデータ利用支援システムであって、
前記記述形式は、前記条文番号の各階層のレイアウトである、
データ利用支援システム。
【請求項5】
請求項4に記載のデータ利用支援システムであって、
前記レイアウトはインデントである、
データ利用支援システム。
【請求項6】
請求項1に記載のデータ利用支援システムであって、
前記条文データについて前記記述パターンを推定した結果をユーザインタフェースを介してユーザに提示する、
データ利用支援システム。
【請求項7】
請求項1に記載のデータ利用支援システムであって、
前記記述パターンを編集するためのユーザインタフェースをユーザに提供し、
前記ユーザインタフェースを介して受け付けた前記記述パターンに基づき、前記構造化データを生成する、
データ利用支援システム。
【請求項8】
請求項1に記載のデータ利用支援システムであって、
ある階層の前記条文番号の前記記述パターンとして記憶している記述形式を、他の階層の前記条文番号の記述形式として用いた前記記述パターンを生成し、
前記条文データを生成した前記記述パターンと対照することにより、前記条文データの前記記述パターンを推定する、
データ利用支援システム。
【請求項9】
請求項1に記載のデータ利用支援システムであって、
前記条文番号は、条、項、号の階層ごとに付与される、
データ利用支援システム。
【請求項10】
プロセッサ及び記憶装置を有する情報処理装置が、
法令や条例等を記述した電子データである条文データに含まれている条文に階層的に付与される番号である条文番号の記述形式を示す情報である記述パターンを複数記憶するステップ、
構造化の対象となる条文データを取得するステップ、
取得した前記条文データを前記記述パターンと対照することにより、前記条文データの記述パターンを推定するステップ、及び、
推定した前記記述パターンに基づき、前記条文データを構造化したデータである構造化データを生成して出力するステップ、
を実行する、データ利用支援方法。
【請求項11】
請求項10に記載のデータ利用支援方法であって、
前記記述パターンは、前記条文番号の各階層の記述形式の組み合わせにより定義される、
データ利用支援方法。
【請求項12】
請求項10に記載のデータ利用支援方法であって、
前記記述形式は、前記条文番号の修飾語、前記条文番号の表記に使用する文字の種類、及び前記条文番号の枝番の使用可否のうちの少なくともいずれかの組み合わせにより表される、
データ利用支援方法。
【請求項13】
請求項10に記載のデータ利用支援方法であって、
前記記述形式は、前記条文番号の各階層のレイアウトである、
データ利用支援方法。
【請求項14】
請求項10に記載のデータ利用支援方法であって、
前記情報処理装置が、前記条文データについて前記記述パターンを推定した結果をユーザインタフェースを介してユーザに提示するステップ、
を更に実行する、データ利用支援方法。
【請求項15】
請求項14に記載のデータ利用支援方法であって、
前記情報処理装置が、
前記記述パターンを編集するためのユーザインタフェースをユーザに提供するステップ、及び、
前記ユーザインタフェースを介して受け付けた前記記述パターンに基づき、前記構造化データを生成するステップ、
を更に実行する、データ利用支援方法。



【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データ利用支援システム、及びデータ利用支援方法に関する。
【背景技術】
【0002】
企業や官公庁等の組織における業務やプロジェクトの遂行に際しては、関連する法令や条例について洗出しや確認等の作業が行われる。しかし、こうした作業は繁雑で手間がかかるため、従来より作業負荷を軽減するための様々な仕組みが提案されている。
【0003】
例えば、特許文献1には、県市町村における条例改正を容易に把握することを目的として構成された改正通知検索システムについて記載されている。改正通知検索システムは、法令や例規集に関する情報が蓄積されている条例データベース等の外部データベースにインターネット回線を介して接続して条例データを取得し、最後に取得した条例データと、取得した条例データとを比較して不一致部分を検出して条例改正データを作成し、条例改正データに基づき利用者に条例改正があった旨の通知を行う。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2010-191657号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
昨今のDX(デジタルトランスフォーメーション)戦略やデジタル構造改革等の時流に伴い、国や地方公共団体等においては、デジタル行政サービスの一貫として法令や条例等のオープンデータの提供を行っている。こうしたデータを活用することで、企業や官公庁等の組織においては、業務やプロジェクトの遂行に際して行われる法令や条例の洗出しや確認等の作業の効率化が期待できる。
【0006】
但し、こうしたデータをデータベースに取り込んで有効に活用するには、提供されるデータを適切な形に構造化する必要がある。とくに、「条」、「項」、「号」の表記の態様や条文番号の付与体系が異なる等、提供される法令や条例のデータの記述形式は必ずしも統一されておらず、データベースへの機械的な取り込みが難しいという課題がある。
【0007】
本発明は、このような背景に基づきなされたものであり、オープンデータ等として提供される法令や条例のデータを効率よく構造化することが可能な、データ利用支援システム、及びデータ利用支援方法を提供することを目的とする。
【課題を解決するための手段】
【0008】
上記の目的を達成するための本発明の一つは、データ利用支援システムであって、プロセッサ及び記憶装置を有する情報処理装置を用いて構成され、法令や条例等を記述した電子データである条文データに含まれている条文に階層的に付与される番号である条文番号の記述形式を示す情報である記述パターンを複数記憶し、構造化の対象となる条文データを取得し、取得した前記条文データを前記記述パターンと対照することにより、前記条文データの記述パターンを推定し、推定した前記記述パターンに基づき、前記条文データを構造化したデータである構造化データを生成して出力する。
【0009】
その他、本願が開示する課題、及びその解決方法は、発明を実施するための形態の欄、及び図面により明らかにされる。
【発明の効果】
【0010】
本発明によれば、オープンデータ等として提供される法令や条例のデータを効率よく構造化することができる。
【図面の簡単な説明】
【0011】
図1】データ利用支援システムの概略的な構成を示す図である。
図2】データ利用支援装置が備える主な機能を説明するブロック図である。
図3】データ利用支援装置の主な動作を説明するシステムフロー図である。
図4】記述パターン定義情報の一例である。
図5A】記述パターン推定処理を説明するフローチャートである。
図5B】記述パターン照合処理を説明するフローチャートである。
図6A】推定結果提示画面(記述パターンの推定に成功した場合)の一例である。
図6B】推定結果提示画面(記述パターンの推定に失敗した場合)の一例である。
図7A】構造化データの一例である。
図7B】表形式のデータを含む構造化データの一例である。
図8】データ利用支援装置やデータ利用装置の実現に用いる情報処理装置の一例である。
図9】第2実施形態の記述パターン定義情報の一例である。
図10】第2実施形態のデータ利用支援装置が備える主な機能を説明するブロック図である。
図11】第2実施形態のデータ利用支援装置の主な動作を説明するシステムフロー図である。
図12】第2実施形態の推定結果提示画面の一例である。
【発明を実施するための形態】
【0012】
以下、図面を適宜参照しつつ本発明の実施形態について説明する。以下の記載及び図面は、本発明を説明するための例示であり、説明の明確化のため、適宜、省略及び簡略化がなされている。本発明は、他の種々の形態でも実施することが可能である。とくに限定しない限り、各構成要素は単数でも複数でも構わない。
【0013】
以下の説明において、同一の又は類似する構成に同一の符号を付して重複した説明を省略することがある。また、以下の説明において、符号の前に付した「S」の文字は処理ステップの意味である。
【0014】
以下の説明において、「情報」、「データ」等の表現にて各種情報を説明することがあるが、各種情報は、これら以外のデータ構造で表現されていてもよい。また、識別情報について説明する際に、「識別子」、「ID」等の表現を用いるが、これらについてはお互いに置換が可能である。
【0015】
[第1実施形態]
図1に、第1実施形態として説明する情報処理システム(以下、「データ利用支援システム1」と称する。)の概略的な構成を示している。同図に示すように、データ利用支援システム1は、データ利用支援装置100と一つ以上のデータ利用装置3とを含む。これらの装置は、いずれも情報処理装置(コンピュータ)を用いて構成されている。データ利用支援装置100とデータ利用装置3は、共通の情報処理装置により実現してもよい。
【0016】
データ利用支援装置100は、国や地方公共団体等によって運用される、法令や条例の電子データ(以下、「条文データ」と称する。)をオープンデータとして提供するサーバ装置(以下、「提供サーバ2」と称する。)とインターネット5を介して通信可能に接続
している。
【0017】
データ利用装置3は、通信ネットワーク6を介してデータ利用支援装置100と通信可能に接続している。通信ネットワーク6は、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット、公衆用通信網、専用線等である。
【0018】
データ利用支援装置100は、提供サーバ2から条文データをインターネット5を介して取得し、取得した条文データを構造化したデータ(以下、「構造化データ」と称する。)を生成してデータベースに管理する。尚、データ利用支援装置100は、記録媒体を介して取得する等、他の方法で条文データを取得してもよい。データ利用支援装置100は、データ利用装置3からの要求に応じてデータ利用装置3に構造化データを提供する。データ利用装置3は、データ利用支援装置100から提供される構造化データを取得し、取得した構造化データを業務に活用する。
【0019】
尚、データ利用支援システム1やデータ利用装置3の利用主体は必ずしも限定されないが、例えば、企業や官公庁等の組織において、業務やプロジェクトの遂行に際し関連する法令や条例について洗出しや確認等の作業を行う部門や担当者である。
【0020】
図2は、データ利用支援装置100が備える主な機能を説明するブロック図である。また、図3は、データ利用支援装置100の主な動作を説明するシステムフロー図である。
【0021】
図2に示すように、データ利用支援装置100は、記憶部110、情報取得部120、テキスト抽出部125、記述パターン推定部130、条文データ構造化部135、及び構造化データ提供部140を備える。
【0022】
上記機能のうち、記憶部110は、条文データ111、条文データ(テキスト)112、記述パターン定義情報113、記述パターン推定結果114、及び構造化データ115を記憶する。
【0023】
図3に示すように、情報取得部120は、インターネット5を介して提供サーバ2から条文データを取得し、取得した条文データを条文データ111として管理する。尚、条文データは、テキスト(text)形式の他、HTML(Hypertext Markup Language)やRT
F(Rich Text Format)、PDF(Portable Document Format)等、様々な形式(データ形式、ファイル形式)のデータとして提供されている。
【0024】
テキスト抽出部125は、様々な形式で提供される条文データ111からテキストデータを抽出したデータである条文データ(テキスト)112を生成する。テキスト抽出部125は、例えば、条文データ111がテキスト形式のデータであれば、当該データをそのまま条文データ(テキスト)112とする。また、条文データ111のデータ形式がテキスト形式以外であれば、テキスト抽出部125は、例えば、公知のテキストデータ抽出ソフトウェアを用いて条文データ111からテキストデータを抽出して条文データ(テキスト)112を生成する。
【0025】
記述パターン推定部130は、条文データ(テキスト)112を記述パターン定義情報113と対照することにより、条文データ(テキスト)112の記述パターン(条文や条例の記述形式の類型)を推定し、推定した結果を記述パターン推定結果114として管理する。
【0026】
条文データ構造化部135は、記述パターン推定結果114に基づき、条文データ(テキスト)112を構造化したデータを生成し、生成したデータを構造化データ115とし
て管理する。
【0027】
構造化データ提供部140は、データ利用装置3から送られてくる条文データの提供要求に応じて、要求された条文データの構造化データ115をデータ利用装置3に送信する。
【0028】
<記述パターンの推定>
続いて、記述パターン推定部130による記述パターンの推定方法について説明する。
【0029】
図4は、記述パターン定義情報113の一例である。記述パターン定義情報113には、記述パターンを定義した情報が管理される。記述パターンは、条文番号の各階層の記述形式の組み合わせにより定義される。例示する記述パターン定義情報113は、記述パターンごとに記述形式を定義した情報を含む。同図に示すように、例示する記述パターン定義情報113は、パターンID311、階層312、表記形式313、番号文字種314、及び枝番可否315の各項目を有する。
【0030】
上記項目のうち、パターンID311には、記述パターンの識別子であるパターンID(「パターン1」、「パターン2」等)が格納される。
【0031】
階層312には、法令や条例に用いられる条文番号の階層を表す情報(「条」、「項」、「号」、「細分1」、「細分2」等)が格納される。
【0032】
表記形式313には、各階層の条文番号の表記の方法(以下、「表記形式」と称する。)を示す情報が格納される。例示する表記形式における「{ }」の記号は、当該記号の部分に条文番号(条番号、項番号、号番号等)が入ることを示す。例えば、例示する記述パターン定義情報113の条の階層に格納されている「第{ }条」は、条番号が「第1条」、「第2条」のように記述されることを表す。
【0033】
番号文字種314には、条文番号の記述に用いられる数字や文字の種別を示す情報(「漢数字」、「数字」、「カタカナ」等)が格納される。
【0034】
枝番可否315には、例えば、「第29条の2」における「の2」のように条番号に枝番が付くことがあるか否かを示す情報(条番号に枝番が付くことがあれば「True」が、枝番が付くことがなければ「False」)が格納される。尚、枝番の表記の方法にはバリエー
ションがあるので、記述パターン定義情報113に枝番の表記の方法を区別するための項目を更に設けてもよい。
【0035】
記述パターン推定部130は、条文データ(テキスト)112を記述パターン定義情報113と対照(マッチング)することにより条文データ(テキスト)112の記述パターンを推定する。
【0036】
図5Aは、記述パターン推定部130が、条文データ(テキスト)112の記述パターンを推定する処理(以下、「記述パターン推定処理S500」と称する。)を説明するフローチャートである。以下、同図とともに記述パターン推定処理S500について説明する。
【0037】
まず、記述パターン推定部130は、記述パターンの推定の対象とする条文データ(テキスト)112と記述パターン定義情報113を読み込む(S511)。
【0038】
続いて、記述パターン推定部130は、読み込んだ条文データ(テキスト)112を記
述パターン定義情報113と照合することにより条文データ(テキスト)112の記述パターンを推定する処理(以下、「記述パターン照合処理S512」と称する。)を行う。
【0039】
図5Bは、記述パターン照合処理S512を説明するフローチャートである。以下、同図とともに記述パターン照合処理S512について説明する。
【0040】
同図に示すS550s~S550eの処理は、記述パターン定義情報113の記述パターンを順次選択して繰り返し行われるループ処理である。
【0041】
まず、記述パターン推定部130は、判定フラグを初期化(判定フラグに「True」を格納)する(S551)。
【0042】
続くS560s~S560eの処理は、条文データ(テキスト)112の各行を先頭から一行ずつ順次選択して繰り返し行われるループ処理である。
【0043】
S561では、記述パターン推定部130は、選択中の行が選択中の記述パターンの階層(条、項、号、細分1、細分2)の一つに一致するか否かを判定する。一致すれば(S561:Yes)、処理はS562に進み、一致しなければ(S561:No)、処理はS563に進む。
【0044】
S562では、記述パターン推定部130は、一致した階層が選択中の記述パターンの階層の順序に従っているか(一致した階層が選択中の記述パターンの階層の順序に従って出現しているか)を判定する。一致した階層が選択中の記述パターンの階層の順序に従っていれば(S562:YES)、処理はS560eに進み(この場合は判定フラグは現在値を保持したまま選択中の行の処理を終了)、従っていなければ(S562:No)、処理はS563に進む。
【0045】
S563では、記述パターン推定部130は、判定フラグに「False」を格納し、処理
はS560eに進む。
【0046】
選択中の一つの記述パターンについてのループ処理S560s~S560eが終了すると、記述パターン推定部130は、判定フラグを参照し、「True」が格納されていれば選択中の記述パターンのパターンIDを記述パターン推定結果114に格納する。尚、条文データ(テキスト)112が、記述パターン定義情報113のいずれの記述パターンにもマッチしなかった場合(判定フラグが「False」の場合)、記述パターン推定部130は
、記述パターン推定結果114に「該当する記述パターンなし」を格納する。
【0047】
S550s~S550eのループ処理が終了すると、処理は図5AのS513に進む。
【0048】
図5AのS513では、記述パターン推定部130は、記述パターン推定結果114の内容(パターンID)を出力してユーザに提示する。
【0049】
図6A及び図6Bは、S513において記述パターン推定部130が表示する画面(以下、「推定結果提示画面600」と称する。)の一例である。図6Aは、記述パターンの推定に成功した場合に記述パターン推定部130が生成する推定結果提示画面600の一例であり、図6Bは、記述パターンの推定に失敗した場合に記述パターン推定部130が生成する推定結果提示画面600の一例である。
【0050】
図6A及び図6Bに示すように、推定結果提示画面600は、条文データの表示欄611、メッセージの表示欄612、パターンIDの表示/編集欄613、記述パターンの表
示/編集欄614、及び確認/登録ボタン620を有する。
【0051】
このうち条文データの表示欄611には、条文データ111の内容(テキストデータ)が表示される。
【0052】
メッセージの表示欄612には、記述パターンの推定結果に関するメッセージ(記述パターンの推定に成功した旨や記述パターンの推定に失敗した旨等)が表示される。
【0053】
パターンIDの表示/編集欄613には、記述パターン推定部130が推定した記述パターンのパターンIDが表示される。
【0054】
記述パターンの表示/編集欄614には、記述パターン推定部130が推定した記述パターンの内容が表示される。推定に成功した場合(図6A)及び推定に失敗した場合(図6B)のいずれの場合においても、ユーザは、記述パターンの表示/編集欄614の内容を編集することができる。ユーザは、例えば、記述パターンの表示/編集欄614に記述パターンを直接入力するか、もしくは、当該記述パターンの表示/編集欄614に設けられているプルダウンメニューを操作することで、記述パターンを新規に登録もしくは修正することができる。
【0055】
また、記述パターンの推定に失敗した場合、ユーザは、新たな記述パターンを設定して登録することができる。その場合、ユーザは、パターンIDの表示/編集欄613に新規のパターンIDを設定し、記述パターンの表示/編集欄614に記述パターンの内容を設定して確認/登録ボタン620を操作する(図6B)。
【0056】
尚、各階層の条文番号の記述形式は類似していることが多いため、例えば、ある階層の条文番号の記述パターンとして記憶している記述形式を他の階層の条文番号の記述形式として用いた記述パターンを生成し、記述パターンの推定に際し、生成した上記記述パターンについても条文データ(テキスト)112と対照するようにしても(上記記述パターンについても条文データの記述パターンの推定に用いるようにしても)よい。そのようにすることで、新たな記述パターンを定義する手間を軽減することができる。
【0057】
<構造化データの例>
図7Aは、条文データ構造化部135が、記述パターン推定部130が推定した記述パターンに基づき条文データ(テキスト)112を構造化して生成する構造化データ115の一例である。同図に示すように、例示する構造化データ115は、情報処理装置(コンピュータ)が、「条」、「項」、「号」等を指定することにより条文(テキストデータ)を特定可能な構造になっている。そのため、構造化データ115を利用することで、例えば、条文の効率的な検索システムや、条文間の参照関係を示す情報を提供するシステム等を容易に構築することができる。
【0058】
尚、条文や条例には、テキストデータに加えて「別表」等の形で表形式のデータが含まれていることもある。その場合、例えば、テキスト抽出部125が条文データ111からテキストデータを抽出する際に表形式のデータの有無を判定(例えば、罫線情報の有無により判定)し、表形式のデータが存在する場合は当該表形式のデータを構造化データ1115にテキストデータとは区別した情報として(別項目の情報として)管理するようにしてもよい。
【0059】
図7Bは、テキストデータとは区別した情報として表形式のデータを管理するようにした場合の構造化データ115の一例である。同図において、符号1151で示すデータが表形式のデータである。
【0060】
以上に説明したように、第1実施形態のデータ利用支援システム1によれば、データ利用支援装置100が、オープンデータ等として提供される法令や条例のデータである条文データを記述パターンと照合することにより条文データの記述パターンを推定し、推定した記述パターンに基づき条文データを構造化する。そのため、ユーザは、オープンデータ等として提供される条文データを効率よく構造化することができ、業務やプロジェクトに関連する法令や条例の洗出しや確認等の作業を効率よく行うことができる。
【0061】
<情報処理装置の例>
図8に、以上に説明したデータ利用支援システム1(データ利用支援装置100、データ利用装置3)の構成に用いる情報処理装置の一例を示す。
【0062】
例示する情報処理装置10は、プロセッサ11、主記憶装置12(メモリ)、補助記憶装置13(外部記憶装置)、入力装置14、出力装置15、及び通信装置16を備える。これらはバスや通信ケーブル等を介して通信可能に接続されている。情報処理装置10の例として、パーソナルコンピュータ、サーバ装置、スマートフォン、タブレット、オフィスコンピュータ、汎用機(メインフレーム)等がある。
【0063】
情報処理装置10は、その全部又は一部が、例えば、クラウドシステムによって提供される仮想サーバのように、仮想化技術やプロセス空間分離技術等を用いて提供される仮想的な情報処理資源を用いて実現されるものであってもよい。また、情報処理装置10によって提供される機能の全部又は一部は、例えば、クラウドシステムがAPI(Application Programming Interface)等を介して提供するサービスによって実現してもよい。また
、情報処理装置10によって提供される機能の全部又は一部は、例えば、SaaS(Software as a Service)、PaaS(Platform as a Service)、IaaS(Infrastructure
as a Service)等を利用して実現されるものであってもよい。
【0064】
プロセッサ11は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)、GPU(Graphics Processing Unit)、FPGA(Field Programmable
Gate Array)、ASIC(Application Specific Integrated Circuit)、AI(Artificial Intelligence)チップ等を用いて構成されている。
【0065】
主記憶装置12は、プロセッサ11がプログラムを実行する際に利用する装置であり、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、不揮発性メモリ(NVRAM(Non Volatile RAM))等である。データ利用支援システム1の各構成において実現される各種の機能は、夫々のプロセッサ11が、補助記憶装置13に格納(記憶)されているプログラムやデータを主記憶装置12に読み出して実行することにより実現される。
【0066】
補助記憶装置13は、プログラムやデータを記憶する装置であり、例えば、SSD(Solid State Drive)、ハードディスクドライブ、光学式記憶装置(CD(Compact Disc)
、DVD(Digital Versatile Disc)等)、ストレージシステム、ICカード、SDカードや光学式記録媒体等の非一時的な記録媒体の読取/書込装置、クラウドサーバの非一時的な記憶領域等で構成することができる。補助記憶装置13には、記録媒体の読取装置や通信装置16を介して、非一時的な記録媒体や非一時的な記憶装置を備えた他の情報処理装置からプログラムやデータを読み込むことができる。補助記憶装置13に格納(記憶)されているプログラムやデータは主記憶装置12に随時読み込まれる。
【0067】
入力装置14は、外部からの情報の入力を受け付けるインタフェースであり、例えば、キーボード、マウス、タッチパネル、カードリーダ、ペン入力方式のタブレット、音声入
力装置等である。
【0068】
出力装置15は、処理経過や処理結果等の各種情報を外部に出力するインタフェースである。出力装置15は、例えば、上記の各種情報を可視化する表示装置(液晶モニタ、LCD(Liquid Crystal Display)、グラフィックカード等)、上記の各種情報を音声化する装置(音声出力装置(スピーカ等))、上記の各種情報を文字化する装置(印字装置等)である。尚、例えば、情報処理装置10が通信装置16を介して他の装置との間で情報の入力や出力を行う構成としてもよい。
【0069】
入力装置14と出力装置15は、ユーザとの間での対話処理(情報の受け付け、情報の提供等)を実現するユーザインタフェースを構成する。
【0070】
通信装置16は、他の装置との間の通信を実現する装置である。通信装置16は、通信ネットワーク6を介して他の装置との間の通信を実現する、有線方式又は無線方式の通信インタフェースであり、例えば、NIC(Network Interface Card)、無線通信モジュール、USBモジュール等である。
【0071】
情報処理装置10には、例えば、オペレーティングシステム、ファイルシステム、DBMS(DataBase Management System)(リレーショナルデータベース、NoSQL等)、KVS(Key-Value Store)等が導入されていてもよい。
【0072】
[第2実施形態]
第1実施形態のデータ利用支援システム1では、法令や条例に用いられる条文番号の階層を表す情報(「条」、「項」、「号」等)の文字の記述形式(表記形式313、番号文字種314、枝番可否315)に基づき条文データの記述パターンを推定した。第2実施形態のデータ利用支援システム1では、更に条文番号の各階層のレイアウトを記述形式の一つとして用いて考慮して条文データの記述パターンを推定する。具体的には、法令や条例の多くは、「条」、「項」、「号」ごとにインデント(indent:字下げ幅)を変えて記述されていることに着目し、条文番号の階層ごとのインデントの違いに基づき記述パターンを推定する。尚、第2実施形態のデータ利用支援システム1の基本的な構成は第1実施形態のデータ利用支援システム1と同様であるので、以下では、第1実施形態と異なる部分を中心に説明する。
【0073】
図9は、第2実施形態の記述パターン定義情報113の一例である。同図に示すように、例示する記述パターン定義情報113は、第1実施形態の記述パターン定義情報113の各項目に加え、更にインデント316の項目を有する。尚、例示する記述パターン定義情報113では、インデントを「mm」(ミリメートル)単位で表しているが、スペース(空白)やタブ(tab)の数等で表してもよい。
【0074】
図10は、第2実施形態のデータ利用支援装置100が備える主な機能を説明するブロック図である。また、図11は、第2実施形態のデータ利用支援装置100の主な動作を説明するシステムフロー図である。
【0075】
図10に示すように、第2実施形態のデータ利用支援装置100は、第1実施形態のデータ利用支援装置100が備える各機能に加え、更に、レイアウト情報抽出部160を有する。また、第2実施形態のデータ利用支援装置100の記憶部110は、第1実施形態のデータ利用支援装置100の記憶部110が記憶する各情報(データ)に加え、更に、条文データ111のレイアウト(インデント)に関する情報であるレイアウト情報116を記憶する。
【0076】
図11に示すように、レイアウト情報抽出部160は、条文データ111からレイアウト(インデント)を示す情報を抽出して記述パターン推定部130に入力する。また、記述パターン推定部130は、条文データ(テキスト)112とともにレイアウト情報116を記述パターン定義情報113と対照することにより条文データ(テキスト)112の記述パターンを推定し、推定した結果を記述パターン推定結果114として管理する。
【0077】
図12に、第2実施形態のデータ利用支援装置100が表示する推定結果提示画面600の一例を示す。
【0078】
このように、第2実施形態のデータ利用支援システム1は、更に条文番号の各階層のレイアウトを記述形式の一つとして用いて考慮して条文データの記述パターンを推定するので、より高い精度で条文データ111の記述パターンを推定することができる。
【0079】
以上、実施形態について説明したが、本発明は上記の実施形態に限定されるものではなく、様々な変形例が含まれ、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることや、また、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加、削除、置換をすることが可能である。
【0080】
例えば、本発明は、階層的な番号が付与された文章の集合からなる、法令や条例以外の他の種類の文書の電子データを構造化されたデータとして管理しようとする場合にも適用することができる。
【符号の説明】
【0081】
1 データ利用支援システム、2 提供サーバ、3 データ利用装置、5 インターネット、6 通信ネットワーク、100 データ利用支援装置、110 記憶部、111 条文データ、112 条文データ(テキスト)、113 記述パターン定義情報、114 記述パターン推定結果、115 構造化データ、120 情報取得部、125 テキスト抽出部、130 記述パターン推定部、135 条文データ構造化部、140 構造化データ提供部、S500 記述パターン推定処理、S512 記述パターン照合処理

図1
図2
図3
図4
図5A
図5B
図6A
図6B
図7A
図7B
図8
図9
図10
図11
図12