(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-19
(45)【発行日】2024-11-27
(54)【発明の名称】検索用ラベル生成システム及び検索システム
(51)【国際特許分類】
G06F 16/383 20190101AFI20241120BHJP
【FI】
G06F16/383
(21)【出願番号】P 2021070521
(22)【出願日】2021-04-19
【審査請求日】2023-09-28
(73)【特許権者】
【識別番号】000001373
【氏名又は名称】鹿島建設株式会社
(73)【特許権者】
【識別番号】521168117
【氏名又は名称】株式会社UNAIIT
(74)【代理人】
【識別番号】100088155
【氏名又は名称】長谷川 芳樹
(74)【代理人】
【識別番号】100113435
【氏名又は名称】黒木 義樹
(74)【代理人】
【識別番号】100122781
【氏名又は名称】近藤 寛
(74)【代理人】
【識別番号】100128107
【氏名又は名称】深石 賢治
(72)【発明者】
【氏名】小野 満
(72)【発明者】
【氏名】嵩 直人
(72)【発明者】
【氏名】岩倉 慶成
(72)【発明者】
【氏名】柄沢 篤志
(72)【発明者】
【氏名】桑島 奨
(72)【発明者】
【氏名】横尾 敦
(72)【発明者】
【氏名】栃井 允斗
【審査官】酒井 恭信
(56)【参考文献】
【文献】特開2002-236692(JP,A)
【文献】国際公開第2014/017023(WO,A1)
【文献】特開平06-044211(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/00 - 16/958
(57)【特許請求の範囲】
【請求項1】
災害に係るテキストである災害情報の検索の際に用いられるラベルを生成する検索用ラベル生成システムであって、
検索対象の複数の災害情報を取得する災害情報取得手段と、
前記災害情報取得手段によって取得された災害情報それぞれに対して係り受け解析を行って、係り受け解析の結果及び予め記憶した抽出用表現を用いて、当該災害情報からラベルの生成に用いる生成用テキストを抽出する抽出手段と、
前記抽出手段によって抽出された各災害情報の生成用テキストに基づいて複数の災害情報をグループ分けして、各グループに対応するラベルを生成するラベル生成手段と、
を備え
、
前記抽出手段は、予め記憶した分割表現を用いて、前記災害情報取得手段によって取得された災害情報それぞれに対してテキストを分割し、分割された災害情報の何れかに対して前記係り受け解析を行い、前記係り受け解析を行った前記分割された災害情報から、前記抽出用表現を含む文節及び当該文節と係り受け関係を有する連続した文節により構成された前記生成用テキストを抽出する検索用ラベル生成システム。
【請求項2】
前記抽出手段は、予め記憶した、抽出する生成用テキストの文頭
の文節に含まれる抽出用表現、抽出する生成用テキストの文末
の文節に含まれる抽出用表現及び抽出する生成用テキストの文中
の文節に含まれる抽出用表現の何れかを用いて生成用テキストを抽出する請求項1に記載の検索用ラベル生成システム。
【請求項3】
請求項1
又は2に記載の検索用ラベル生成システム
を備えた検索システムであって、
各グループの災害情報と、前記検索用ラベル生成システムによって生成されたラベルとを対応付けて記憶した記憶手段と、
検索に用いる検索用情報を入力して、入力した検索用情報を用いて災害情報の検索を行って、
ヒットした災害情報に対応付けられたラベルに応じた検索結果を出力する検索手段を
更に備え
、
前記検索手段は、前記検索用情報として検索用テキストを入力して、入力した検索用テキストに対して形態素解析を行って形態素を抽出し、抽出した形態素の災害情報における出現頻度から検索に用いる形態素を決定し、決定した形態素を用いて災害情報の検索を行う検索システム。
【請求項4】
前記検索手段は、形態素を用いた災害情報の検索の結果に基づいて、前記出現頻度に応じて検索に用いる形態素の数を変更して再度災害情報の検索を行う請求項
3に記載の検索システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、災害に係るテキストである災害情報の検索の際に用いられるラベルを生成する検索用ラベル生成システム、及び当該ラベルを用いる検索システムに関する。
【背景技術】
【0002】
従来、建設現場における災害の情報を今後の作業の安全に役立てることが提案されている。例えば、特許文献1には、過去に発生した災害の情報を記憶しておき、これから実施する作業のデータの入力に応じて情報を表示するシステムが記載されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来、建設現場では、例えば、労働災害(事故)等の災害の事例をデータベース化することが行われている。各事例についてのデータは、例えば、災害が発生した状況、災害の内容及び災害の原因等のテキスト(文章)である。特許文献1に示されるようなシステムによって、このデータベースを利用することが考えられる。例えば、検索用のキーワード又はテキストを入力して、それらを用いてデータベースに格納されたデータの検索を行うことが考えられる。しかしながら、データベースに格納されたデータの数が膨大となる場合、検索によって得られるデータの数も多くなることが考えられる。このような場合、出力される検索結果は、必ずしもユーザにとって利便性が高いものであるとは言えず、その結果、必ずしも適切に今後の作業の安全に役立てることができないおそれがある。
【0005】
本発明は、上記に鑑みてなされたものであり、検索によって得られる災害に係る災害情報を適切に出力することができる検索用ラベル生成システム及び検索システムを提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するために、本発明に係る検索用ラベル生成システムは、災害に係るテキストである災害情報の検索の際に用いられるラベルを生成する検索用ラベル生成システムであって、検索対象の複数の災害情報を取得する災害情報取得手段と、災害情報取得手段によって取得された災害情報それぞれに対して係り受け解析を行って、係り受け解析の結果及び予め記憶した抽出用表現を用いて、当該災害情報からラベルの生成に用いる生成用テキストを抽出する抽出手段と、抽出手段によって抽出された各災害情報の生成用テキストに基づいて複数の災害情報をグループ分けして、各グループに対応するラベルを生成するラベル生成手段と、を備える。
【0007】
本発明に係る検索用ラベル生成システムでは、係り受け解析の結果及び予め記憶した抽出用表現が用いられて生成用テキストが抽出されて、災害情報のグループ分けに用いられる。その結果、適切に災害情報のグループ分けがなされて、各グループに対応するラベルが生成される。生成されたラベルが用いられることで、検索によって得られる災害情報が適切に出力される。即ち、本発明に係る検索用ラベル生成システムによれば、検索によって得られる災害に係る災害情報を適切に出力することができる。
【0008】
抽出手段は、予め記憶した、抽出する生成用テキストの文頭の文節に含まれる抽出用表現、抽出する生成用テキストの文末の文節に含まれる抽出用表現及び抽出する生成用テキストの文中の文節に含まれる抽出用表現の何れかを用いて生成用テキストを抽出することとしてもよい。この構成によれば、適切かつ確実に生成用テキストを抽出することができる。その結果、検索によって得られる災害に係る災害情報を適切かつ確実に出力することができる。
【0009】
抽出手段は、予め記憶した分割表現を用いて、災害情報取得手段によって取得された災害情報それぞれに対してテキストを分割し、分割された災害情報の何れかに対して係り受け解析を行い、係り受け解析を行った分割された災害情報から、抽出用表現を含む文節及び当該文節と係り受け関係を有する連続した文節により構成された生成用テキストを抽出する。この構成によれば、適切かつ確実に生成用テキストを抽出することができる。その結果、検索によって得られる災害に係る災害情報を適切かつ確実に出力することができる。
【0010】
また、本発明に係る検索システムは、上記の検索用ラベル生成システムを備えた検索システムであって、各グループの災害情報と、検索用ラベル生成システムによって生成されたラベルとを対応付けて記憶した記憶手段と、検索に用いる検索用情報を入力して、入力した検索用情報を用いて災害情報の検索を行って、ヒットした災害情報に対応付けられたラベルに応じた検索結果を出力する検索手段を更に備える。この構成によれば、例えば、これから行う作業に係る災害情報に対する検索を行うことができる。また検索によって得られる災害に係る災害情報を適切に出力することができる。
【0011】
検索手段は、検索用情報として検索用テキストを入力して、入力した検索用テキストに対して形態素解析を行って形態素を抽出し、抽出した形態素の災害情報における出現頻度から検索に用いる形態素を決定し、決定した形態素を用いて災害情報の検索を行う。また、検索手段は、形態素を用いた災害情報の検索の結果に基づいて、出現頻度に応じて検索に用いる形態素の数を変更して再度災害情報の検索を行うこととしてもよい。これらの構成によれば、例えば、ユーザが適切に認識できる数の災害情報を検索結果として出力することができる。
【発明の効果】
【0012】
本発明によれば、検索によって得られる災害情報を適切に出力することができる。
【図面の簡単な説明】
【0013】
【
図1】本発明の実施形態に係る検索用ラベル生成システム及び検索システムである災害情報検索システムの構成を示す図である。
【
図2】災害情報の分割に用いられる分割表現の例を示す表である。
【
図3】災害情報の分割時に用いられる不要表現の例を示す表である。
【
図5】原因文の抽出に用いられる手がかり表現の例を示す図である。
【
図6】抽出される原因文及びグループの原因ラベルとされる原因文の例を示す表である。
【
図7】形態素(単語)毎にカウントされた災害情報における出現頻度を示す表である。
【
図8】災害情報の検索に用いられる表示の例を示す図である。
【
図9】形態素解析された検索用情報の例を示す表である。
【
図10】本発明の実施形態に係る検索用ラベル生成システム及び検索システムである災害情報検索システムで、災害情報の検索の前までに実行される処理を示すフローチャートである。
【
図11】本発明の実施形態に係る検索用ラベル生成システム及び検索システムである災害情報検索システムで、災害情報の検索時に実行される処理を示すフローチャートである。
【発明を実施するための形態】
【0014】
以下、図面と共に本発明に係る検索用ラベル生成システムの実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。
【0015】
図1に本実施形態に係る検索用ラベル生成システム及び検索システムである災害情報検索システム10を示す。災害情報検索システム10は、災害に係るテキストである災害情報(災害データ、災害文)を検索するシステム(装置)である。災害情報は、例えば、過去の災害について記載したテキスト(文字列)である。災害情報検索システム10は、例えば、建設会社において安全管理者又は指導者等によって用いられる。この場合、災害情報は、過去の建設現場における労働災害(事故)の事例に係る情報である。具体的には、災害情報は、災害が発生した際に行っていた作業、災害の原因及び災害の内容等を、災害の事例毎に説明した文章(テキスト)である。上記の災害情報は、例えば、災害が発生した後に建設現場における安全管理者等によって作成される。本実施形態における災害情報としては、従来、生成されている災害情報が用いられてもよい。
【0016】
災害情報検索システム10によってこれから建設現場で行われる作業を想定した検索が行われて、当該作業と同じ又は類似する作業に係る災害情報が参照されることで、作業の危険予知等が行われる。なお、検索の対象となる災害情報は、必ずしも過去の建設現場における労働災害に係るものである必要はなく、どのような災害に係るものであってもよい。また、災害情報検索システム10は、災害情報の内容等に応じて建設現場以外でも用いられてもよい。
【0017】
また、災害情報検索システム10は、災害情報の検索の際に用いられるラベルを、予め、即ち、災害情報の検索が行われる時点までに生成する検索用ラベル生成システムでもある。検索対象の災害情報の数が膨大となる場合、検索によって得られる災害情報の数も多くなることが考えられる。このような場合、検索によって得られる多くの災害情報を単にユーザに提示するだけでは、必ずしも作業の危険予知等に有効ではない、あるいは参照に多くの時間を有するおそれがある。災害情報検索システム10によって生成されるラベルは、検索によって得られる災害に係る災害情報を適切に出力するためのものである。災害情報検索システム10は、生成されたラベルに対応する災害情報を検索する。ラベルについてはより詳細に後述する。
【0018】
災害情報検索システム10は、具体的には、CPU(Central Processing Unit)、メモリ等のハードウェアを含むコンピュータであるサーバ装置等によって構成されている。災害情報検索システム10の後述する各機能は、これらの構成要素がプログラム等により動作することによって発揮される。なお、災害情報検索システム10は、一つのコンピュータで実現されてもよいし、複数のコンピュータがネットワークにより互いに接続されて構成されるコンピュータシステムにより実現されていてもよい。
【0019】
災害情報検索システム10は、インターネット等のネットワークを介して、端末20及び災害情報データベース30との間で情報の送受信を行うことができる。端末20は、災害情報検索システム10による検索を行う、安全管理者又は指導者等のユーザによって用いられる。端末20は、災害情報検索システム10に対して検索の要求を行って、災害情報検索システム10から検索の結果を受け取る。端末20は、PC(パーソナルコンピュータ)、タブレット端末、スマートフォン等のコンピュータである。
【0020】
災害情報データベース30は、災害情報検索システム10による検索の対象となる災害情報を格納するデータベースである。例えば、災害情報データベース30は、建設会社又は公的機関によって管理される。また、管理される主体(例えば、上記の建設会社又は公的機関)毎に複数の災害情報データベース30があってもよい。災害情報データベース30は、サーバ装置等のコンピュータである。また、災害情報データベース30(の機能)は、災害情報検索システム10に含まれていてもよい。
【0021】
引き続いて、本実施形態に係る災害情報検索システム10の機能について説明する。
図1に示すように、災害情報検索システム10は、災害情報取得部11と、抽出部12と、ラベル生成部13と、検索部14とを備えて構成される。災害情報取得部11と、抽出部12と、ラベル生成部13とは、検索用ラベル生成システムに対応する構成である。検索部14は、検索システムに対応する構成である。
【0022】
災害情報取得部11は、検索対象の複数の災害情報を取得する災害情報取得手段である。例えば、災害情報取得部11は、災害情報データベース30から災害情報を取得する。災害情報データベース30がWebで災害情報を公開している場合には、災害情報取得部11は、Webスクレイピングを行って災害情報を取得してもよい。あるいは、災害情報検索システム10に予め災害情報データベース30から取得された災害情報が記憶されており、災害情報取得部11は、記憶された災害情報を取得してもよい。また、災害情報取得部11は、上記以外の方法で災害情報を取得してもよい。
【0023】
災害情報取得部11によって取得される災害情報は、個々の災害情報毎に識別できるようになっている。また、災害情報が複数の災害情報データベース30から取得される場合には、どの災害情報データベース30から取得されたものか識別できるようになっていてもよい。また、各災害情報には、災害の発生日、災害の型名、事例タイトル及び災害の被害(例えば、死亡又は治療に要した期間)等の災害情報に係るメタデータが対応付けられていてもよい。また、災害情報及び対応付けられるメタデータは、例えば、CSV(Comma-Separated Values)データとして取得されてもよいし、それ以外の形式のデータであってもよい。災害情報取得部11は、取得した災害情報を抽出部12に出力する。
【0024】
抽出部12は、災害情報取得部11によって取得された災害情報それぞれに対して係り受け解析を行って、係り受け解析の結果及び予め記憶した抽出用表現を用いて、当該災害情報からラベルの生成に用いる生成用テキストを抽出する抽出手段である。抽出部12は、予め記憶した、抽出する生成用テキストの文頭に対応する抽出用表現、抽出する生成用テキストの文末に対応する抽出用表現及び抽出する生成用テキストの文中に対応する抽出用表現の何れかを用いて生成用テキストを抽出してもよい。抽出部12は、予め記憶した分割表現を用いて、災害情報取得部11によって取得された災害情報それぞれに対してテキストを分割し、分割された災害情報の何れかに対して係り受け解析を行ってもよい。
【0025】
抽出部12は、災害情報から、当該災害情報に係る災害の原因を示す原因文を生成用テキストとして抽出する。上述したように通常、災害情報には、災害の原因を示す部分が含まれる。抽出部12は、当該部分を原因文として抽出する。
【0026】
例えば、抽出部12は、以下のように生成用テキストである原因文を抽出する。抽出部12は、災害情報取得部11から災害情報を入力する。災害情報は、通常、前半に、災害が発生した際に行っていた作業を示す部分を含み、後半に、災害状況を示す部分を含む。例えば、災害情報が「足場の組み立て作業をしていたところ、足を踏み外してしまい、3m下に墜落した」(災害情報例1)とのテキストである場合、前半の「足場の組み立て作業をしていた」との部分が作業内容を示す部分であり、後半の「足を踏み外してしまい、3m下に墜落した」との部分が災害状況を示す部分である。災害情報が「トンネル工事の際に掘削中に落盤し土砂に巻き込まれた」(災害情報例2)とのテキストである場合、前半の「トンネル工事の際に掘削中」との部分が作業内容を示す部分であり、後半の「落盤し土砂に巻き込まれた」との部分が災害状況を示す部分である。災害の原因を示す部分は、災害状況を示す部分に含まれる。
【0027】
まず、抽出部12は、入力した災害情報それぞれを、作業内容を示す部分と、災害状況を示す部分とに分割する。抽出部12は、作業内容を示す部分と災害状況を示す部分との境目に出現する分割表現を、分割表現として予め記憶しておく。分割表現は、作業内容を示す部分、即ち、分割する前半部分の末尾に出現する表現である。例えば、抽出部12は、
図2に示すような複数の分割表現を分割辞書として予め記憶しておく。
【0028】
抽出部12は、入力した災害情報と予め記憶した分割表現とを比較して、災害情報に含まれる分割表現を判断する。抽出部12は、災害情報に含まれる分割表現の部分までを前半部分、それ以降を後半部分として、災害情報を2つに分割する。なお、分割表現に予め優先度を設定しておき、災害情報に複数の分割表現が含まれる場合には、優先度に応じた分割表現を用いて分割してもよい。
【0029】
抽出部12は、分割した前半部分を、作業内容を示す部分とし、分割した後半部分を、災害状況を示す部分とする。また、抽出部12は、以下のように分割した後半部分から不要表現を削除して災害状況を示す部分としてもよい。不要表現は、接続語及び句読点等の文章の先頭としては妥当ではない表現である。抽出部12は、
図3に示すような複数の不要表現を予め辞書として記憶しておく。抽出部12は、分割した後半部分と予め記憶した不要表現とを比較して、後半部分の先頭に不要表現が含まれているかを判断する。後半部分の先頭に不要表現が含まれている場合、抽出部12は、不要表現を削除する。抽出部12は、先頭に不要表現が含まれなくなるまで不要表現の削除を繰り返し行う。抽出部12は、先頭に不要表現が含まれない上記の後半部分を、災害状況を示す部分とする。
【0030】
上記の災害情報例1では、分割された後半部分が「ところ、足を踏み外してしまい、3m下に墜落した」となり、不要表現である「ところ、」を削除した災害状況を示す部分が「足を踏み外してしまい、3m下に墜落した」となる。災害情報例2では、分割された後半部分が「に落盤し土砂に巻き込まれた」となり、不要表現である「に」を削除した災害状況を示す部分が「落盤し土砂に巻き込まれた」となる。
【0031】
抽出部12は、上記のようにして得られた各災害情報の災害状況を示す部分に対して係り受け解析を行う。係り受け解析は、例えば、CaboCha又はKNP(Kurohashi Nagao Parser)等の従来の方法で行うことができる。抽出部12は、係り受け解析を行うことで、災害情報の災害状況を示す部分について、
図4に示すような当該部分を構成する文節及び当該文節の係り受け(修飾、被修飾)の関係を示す情報を得る。
図4に示す例は、災害情報が「外壁の下地処理中、脚立から降りる時に下を良く確認せずに降りた為、段差で左足を挫き骨折した。」(災害情報例3)とのテキストであり、得られた後半部分が「脚立から降りる時に下を良く確認せずに降りた為、段差で左足を挫き骨折した。」である場合の例である。
【0032】
抽出部12は、原因文を抽出するための手がかり表現を、抽出用表現として予め記憶しておく。手がかり表現は、原因文中に特徴的に出現する表現である。例えば、抽出部12は、
図5に示すような複数の手がかり表現を辞書として予め記憶しておく。手がかり表現には、原因文のどの部分に出現するかを示すタイプが予め設定されている。手がかり表現のタイプは、抽出する原因文の文頭に対応(出現)するもの(
図5に示すタイプA:文頭タイプ)、抽出する原因文の文末に対応(出現)するもの(
図5に示すタイプB:文末タイプ)、及び抽出する原因文の文中、即ち、文頭でも文末ではない部分に対応(出現)するもの(
図5に示すタイプC:文中タイプ)の3つのタイプの何れかである。
【0033】
抽出部12は、得られた各災害情報の災害状況を示す部分と予め記憶した手がかり表現とを比較して、当該部分に含まれる手がかり表現を判断する。なお、手がかり表現に予め優先度を設定しておき、抽出部12は、優先度順に当該部分に含まれる手がかり表現が見つかるまで上記の判断をしてもよい。例えば、
図5に示す手がかり表現の左側の上から下の順、その後に右側の上から下の順に上記の判断をしてもよい。
【0034】
抽出部12は、災害状況を示す部分の係り受け解析の結果に基づいて、当該部分に含まれる手がかり表現を手がかりとして原因文を抽出する。抽出部12は、手がかり表現のタイプ毎に原因文の抽出ルールを予め記憶している。抽出部12は、災害状況を示す部分に含まれる手がかり表現に応じた抽出ルールに基づいて当該部分から原因文を抽出する。
【0035】
まず、抽出部12は、手がかり表現を含む文節を、原因文を構成する文節とする。文節に含まれる手がかり表現が文頭タイプ(タイプA)であった場合、抽出部12は、手がかり表現を含む文節の後に続く修飾関係(係り受け関係)を有する連続した文節を、原因文を構成する文節とする。例えば、
図4に示す例で、手がかり表現を含む文節が9番の文節であった場合、9番、11番及び12番の文節を、原因文を構成する文節とする。また、この場合、抽出部12は、連続した文節のうちで最後の文節から、遡った修飾関係(係り受け関係)を有し、更に遡った修飾関係がなく(即ち、独立した1つの文節であり)かつ手がかり表現を含む文節より前に出現する文節を、原因文を構成する文節とする。例えば、
図4に示す例で、手がかり表現を含む文節が9番の文節であった場合、上記の最後の文節である12番から1つだけ遡れる文節があれば、その文節を、原因文を構成する文節とする。
図4ではそのような文節はないが、もし、8番の文節が7番の文節と係り受け関係がなければ、8番の文節が原因文を構成する文節となる。
【0036】
文節に含まれる手がかり表現が文末タイプ(タイプB)であった場合、抽出部12は、手がかり表現を含む文節から遡る修飾関係(係り受け関係)を有する連続した文節を、原因文を構成する文節とする。この際、遡れる文節が複数ある場合(即ち、修飾関係が枝分かれする場合)、災害状況を示す部分の先頭に近い文節一つを、原因文を構成する文節とする。なお、その一つの文節から更に遡れる場合には、更に遡った文節も、原因文を構成する文節とする。例えば、
図4に示す例で、手がかり表現を含む文節が6番の文節であった場合、4番及び6番の文節を、原因文を構成する文節とする。
【0037】
文節に含まれる手がかり表現が文中タイプ(タイプC)であった場合、抽出部12は、文頭タイプ(タイプA)及び文末タイプ(タイプB)の両方の抽出ルールに基づいて、原因文を構成する文節を決定する。例えば、
図4に示す例で、手がかり表現を含む文節が6番の文節であった場合、4番、6番、7番、8番及び12番の文節を、原因文を構成する文節とする。
【0038】
抽出部12は、原因文を構成する文節とした文節を、災害状況を示す部分に出現する順番に(
図4に示す例では、数字が小さい順に)並べて、並べたものを原因文とする。例えば、
図4の例では、災害状況を示す部分に含まれる手がかり表現は、文末タイプ(タイプB)の「せず」である。この場合の原因文は、上記の抽出ルールに基づいて、「下を確認せずに」(4番、6番の文節)とされる。抽出部12は、災害情報毎に抽出した原因文をラベル生成部13に出力する。
【0039】
なお、上記の原因文の抽出ルールを含む原因文の抽出方法は、既存の災害情報に対する本件発明者の検討及び試行錯誤によって、よりよい原因文が抽出できるものとして見出されたものである。但し、原因文の抽出は、上記以外の方法で行われてもよい。
【0040】
ラベル生成部13は、抽出部12によって抽出された各災害情報の生成用テキスト(原因文)に基づいて複数の災害情報をグループ分けして、各グループに対応するラベルを生成するラベル生成手段である。ラベル生成部13による災害情報のグループ分けは、災害情報の検索結果の出力を、ユーザにとって利便性の高いものとするためのものである。災害情報のグループ分けは、原因文に基づいて、即ち、災害の原因に基づいて行われる。従って、例えば、災害情報の検索結果の出力をグループ毎に出力することで、災害の原因の傾向を把握できる出力とすることができる。また、後述するようにラベルは、グループに係る原因を示す原因ラベルとしてもよい。例えば、原因ラベルは、原因文に基づいて、ユーザが簡易に災害情報に係る災害の原因を把握できるものであってもよい。
【0041】
例えば、ラベル生成部13は、以下のように災害情報をグループ分けして、各グループに対応するラベルを生成する。ラベル生成部13は、抽出部12から災害情報毎の原因文を入力する。ラベル生成部13は、各原因文を、文章の特徴を示す特徴量、例えば、予め設定された次元数のベクトル(原因文ベクトル)に変換する。原因文ベクトルへの変換は、従来の方法、例えば、Pretrained BERT等の汎用自然言語処理モデルを用いて行うことができる。
【0042】
ラベル生成部13は、原因文ベクトルを用いて原因文をクラスタリングする。即ち、ラベル生成部13は、災害情報をグループ分けする。クラスタリングによって生成されたクラスタが、災害情報のグループに相当する。原因文ベクトルを用いたクラスタリングは、従来の方法、例えば、DBSCAN又はk-means等の教師なしクラスタリングによって行うことができる。また、クラスタリングには、機械学習の手法が用いられてもよい。
図6(a)に示すように、ラベル生成部13は、各原因文(各災害情報)に対して、原因文が属するグループを示す情報であるグループ番号を対応付ける。なお、災害情報のグループ分けは、上記以外の方法で行われてもよい。
【0043】
ラベル生成部13は、生成した各グループ(クラスタ)について原因ラベルを生成する。例えば、ラベル生成部13は、クラスタに含まれる原因文ベクトルの重心に最も近い原因文ベクトルに対応する原因文を原因ラベルとする。あるいは、原因ラベルは、それ以外の方法によって生成されてもよい。
図6(b)に示すように、ラベル生成部13は、グループ毎にグループ番号に原因ラベルとした原因文を対応付ける。ラベル生成部13は、生成した原因ラベルを、当該原因ラベルに係るグループに含まれる災害情報に対応付けて災害情報検索システム10に記憶させて検索部14に利用できるようにする。
【0044】
検索部14は、検索に用いる検索用情報を入力して、入力した検索用情報を用いて災害情報の検索を行って、ラベル生成部13によって生成されたラベルに応じた検索結果を出力する検索手段である。検索部14は、検索用情報として検索用テキストを入力して、入力した検索用テキストに対して形態素解析を行って形態素を抽出し、抽出した形態素の災害情報における出現頻度に応じて当該形態素を用いて災害情報の検索を行ってもよい。検索部14は、形態素を用いた災害情報の検索の結果に基づいて、上記の出現頻度に応じて検索に用いる形態素の数を変更して災害情報の検索を行ってもよい。
【0045】
検索部14は、予め、即ち、災害情報の検索が行われる時点までに災害情報における形態素の出現頻度を算出する。検索部14は、検索対象の災害情報を取得する。災害情報の取得は、災害情報取得部11による取得と同様に行われればよい。あるいは、検索部14は、災害情報取得部11によって取得された災害情報を災害情報取得部11から入力してもよい。
【0046】
検索部14は、取得した災害情報それぞれに対して、形態素解析を行って災害情報から形態素を取得する。検索部14は、形態素毎に災害情報における出現頻度をカウントする。この際、形態素解析によって得られた品詞が、災害情報の検索に用いるものとしては不適切である形態素(例えば、記号、助詞、数字及び数助詞)については、出現頻度をカウントしない。あるいは、災害情報の検索に用いるものとして適切である予め設定された特定の形態素(例えば、名詞)についてのみ、出現頻度をカウントしてもよい。また、カウントされる数は、出現する災害情報の数(1つの災害情報に複数出現していても1とする)でもよいし、形態素の数(1つの災害情報に複数出現したらその数とする)でもよい。検索部14は、
図7に示すような形態素毎にカウントした数を記憶しておく。以上が、検索部14の検索が行われるまでの機能である。
【0047】
例えば、検索部14は、以下のように災害情報を検索する。検索部14による検索は、例えば、
図8に示すユーザインタフェースである端末20での表示を介して行われる。当該表示は、例えば、端末20が災害情報検索システム10にアクセスすることで行われる。当該表示において、作業内容入力の欄に検索用情報が入力されて、検索ボタンが押下されると災害情報検索システム10の検索部14によって、入力された検索用情報が用いられて災害情報の検索が行われる。検索結果は、解析結果以降の部分に表示される。検索用情報は、例えば、テキスト(文字列、キーワード)である。検索用情報として、これから建設現場で行われる作業に係るテキストを入力することで、当該作業に関連する災害情報が検索される。なお、検索部14による上記の検索機能には、所定のAPI(Application Programming Interface)が設けられていてもよい。
【0048】
また、複数の種類の災害情報データベース30がある場合には、災害情報データベース30毎に検索できるようにしてもよい。例えば、
図8に示す表示において、対象データ選択の欄で検索の対象とする災害情報データベース30を選択できるようにしてもよい。
【0049】
検索の結果の表示には、ラベル生成部13によって生成されて各災害情報に対応付けられた原因ラベルが用いられる。例えば、
図8に示す表示において、円グラフの部分のような表示が行われてもよい。例えば、検索によってヒットした災害情報のうち、同一の原因ラベルが対応付けられたものを1つの円グラフとして表示する。
図8に示す例は、「足場板が外れ」との原因ラベルが対応付けられた災害情報が16件、検索によってヒットしたことを示している。円グラフは、例えば、災害の被害別の災害情報の件数(例えば、死亡、治療を要した場合、何か月の治療を要したか毎)を示したものである。なお、グラフについては、
図8に示す表示のように円グラフ以外の種類が選択できるようになっていてもよい。
【0050】
また、検索でヒットした災害情報が事例一覧の欄に示される。例えば、
図8に示す表示において、DB種類、災害情報及び原因文が表形式で表示される。DB種類は、災害情報を格納する災害情報データベース30を示す情報である。災害情報は、検索でヒットした災害情報である。原因文は、災害情報から抽出部12によって抽出された原因文である。また、災害情報に対応付けられたこれ以外のメタデータもあわせて表示されてもよい。ユーザによって円グラフの何れかが選択された場合、当該円グラフに対応する災害情報を表示するようにしてもよい。即ち、同じ原因ラベルに対応付けられた災害情報をまとめて表示するようにしてもよい。
【0051】
検索部14は、端末20から、検索の要求として検索に用いる検索用情報を受信して入力する。端末20における検索用情報の入力及び災害情報検索システム10への送信は、ユーザの端末20に対する、
図8に示す表示等を用いた操作によって行われる。入力される検索用情報は、文章である検索用テキストである。検索用テキストは、例えば、「足場の上で型枠の組み立て作業を行う」といった、これから建設現場で行われる作業を示すものである。
【0052】
検索部14は、入力した検索用テキストに対して形態素解析を行って形態素を抽出する。形態素解析が行われて、形態素(単語)が抽出された検索用テキストの例を
図9(a)に示す。なお、
図9におけるEOS(End Of Sentence)は、検索用テキストの終わりを示す。続いて、検索部14は、形態素解析によって得られた品詞が、災害情報の検索に用いるものとしては不適切である形態素(例えば、記号、助詞、数字及び数助詞)を除外する。あるいは、災害情報の検索に用いるものとして適切である予め設定された特定の形態素(例えば、名詞)についてのみ、災害情報の検索に用いてもよい。
【0053】
形態素(単語)の除外の例を
図9(b)に示す。横線が引かれた形態素が、除外された形態素である。また、検索部14は、得られた形態素のうち、災害情報における出現頻度が一定の基準を満たすものを除外してもよい。例えば、検索部14は、予め算出して記憶した形態素毎の出現頻度(出現回数)を参照して、災害情報における出現頻度が上位5%の形態素を除外してもよい。災害情報における出現頻度が高く、一般的であると考えられる形態素は、災害情報の検索に必ずしも適していないと考えられるためである。
【0054】
検索部14は、上記のように得られた形態素を用いて災害情報の検索を行う。検索部14は、予め災害情報データベース30から取得した災害情報を記憶しておき、記憶した災害情報に対して検索を行ってもよいし、あるいは、災害情報データベース30に対して検索を行ってもよい。検索部14は、得られた形態素をテキスト中に全て含む災害情報を検索(部分一致検索)する。即ち、検索部14は、得られた形態素を検索キーワードとして用いたアンド検索を行う。
【0055】
検索部14は、上記の検索によって、検索に用いた形態素をテキスト中に全て含む災害情報、即ち、検索によってヒットした災害情報を得る。検索部14は、当該検索の結果に基づいて、検索の結果を出力するか、再度検索を行うかを判断する。検索部14は、ヒットした災害情報の数と予め設定された閾値とを比較する。ヒットした災害情報の数が閾値以上であると判断した場合、検索部14は、検索の結果を出力すると判断する。ヒットした災害情報の数が閾値未満であると判断した場合、検索部14は、再度検索を行うと判断する。ヒットした災害情報の数が少ない場合、ユーザは十分な数の災害情報を参照できず、作業の危険予知等の観点から、必ずしも適切ではないと考えられるためである。
【0056】
再度検索を行うと判断した場合、検索部14は、予め算出して記憶した形態素毎の出現頻度(出現回数)を参照して、検索に用いた形態素のうち、最も出現頻度が高いものを除外して、再度検索する。例えば、
図9(b)に示す形態素(単語)を用いて検索を行った後、再度検索を行う場合、
図9(c)に示すように最も出現頻度(出現回数)が高い「作業」との形態素を次の検索に用いる形態素から除外する。検索部14は、ヒットした災害情報の数が閾値以上になるまで、形態素の除外と検索とを繰り返す。
【0057】
検索の結果を出力すると判断した場合、検索部14は、ヒットした災害情報を出力する。その際、検索部14は、ラベル生成部13によって生成されて記憶された各災害情報の原因ラベルを参照して、
図8に示すような災害ラベルに応じた検索結果を示す情報を生成して出力する。具体的には、検索部14は、生成した検索結果を示す情報を端末20に送信する。端末20では、当該情報が受信されて表示される等のユーザが認識できる形式での出力が行われる。
【0058】
検索部14による検索は、上記以外の方法で行われてもよい。上記の例では、検索に用いる形態素を減らしてヒットする災害情報を増やすようにしたが、検索に用いる形態素を増やしてヒットする災害情報を減らすようにしてもよい。また、検索部14は、上記のように検索用テキストに対する形態素解析を用いた検索ではなく、例えば、入力されたキーワードをそのまま用いた検索を行ってもよい。
【0059】
検索部14による情報の入出力は、必ずしも上記のように端末20との間で行われる必要はなく、どのような装置との間のどのように行われてもよい。以上が、本実施形態に係る災害情報検索システム10の機能である。
【0060】
引き続いて、
図10及び
図11のフローチャートを用いて、本実施形態に係る災害情報検索システム10で実行される処理を説明する。まず、
図10を用いて、災害情報の検索の前までに実行される処理を説明する。
【0061】
本処理では、まず、災害情報取得部11によって検索対象の複数の災害情報が取得される(S01)。続いて、抽出部12によって、分割表現が用いられて、災害情報が、前半部分である作業内容を示す部分と、後半部分である災害状況を示す部分とに分割される(S02)。続いて、抽出部12によって、災害状況を示す部分に対して係り受け解析が行われる(S03)。続いて、抽出部12によって、係り受け解析の結果及び手がかり表現を用いて、災害情報から原因文が抽出される(S04)。
【0062】
続いて、ラベル生成部13によって、原因文に基づいてクラスタリングが行われて、災害情報がグループ分けされる(S05)。続いて、ラベル生成部13によって、各グループに対する原因ラベルが生成される(S06)。生成された原因ラベルは、各グループの災害情報に対応付けられて災害情報検索システム10に記憶されて、検索部14によって用いられる。
【0063】
また、検索部14によって、検索対象の複数の災害情報が取得されて形態素解析が行われて、形態素毎に災害情報における出現頻度がカウントされる(S07)。形態素毎の出現頻度は、災害情報検索システム10に記憶されて、検索部14によって用いられる。なお、S01~S06の処理とS07の処理とは互いに独立して行われるため、必ずしも、上記の順番で行われる必要はない。以上が、災害情報の検索の前までに実行される処理である。
【0064】
続いて、
図11を用いて、災害情報の検索時に実行される処理を説明する。本処理では、まず、検索部14によって、検索用テキストが入力される(S11)。例えば、端末20から送信された検索用テキストが受信されて入力される。続いて、検索部14によって、検索用テキストに対して形態素解析が行われて、形態素が抽出される(S12)。この際、抽出された形態素から、検索に用いないものの除外が行われてもよい。続いて、検索部14によって、形態素を用いた災害情報の検索が行われる(S13)。続いて、検索部14によって、検索によってヒットした災害情報の数が閾値以上であるか否かが判断される(S14)。
【0065】
ヒットした災害情報の数が閾値未満であると判断された場合(S14のNO)、続いて、検索部14によって、災害情報における形態素の出現頻度に応じて、検索に用いられる形態素の除外が行われる(S15)。その後、検索部14によって、再度形態素を用いた災害情報の検索が行われ(S13)、それ以降は上記と同様の処理(S14以降の処理)が行われる。
【0066】
S14において、ヒットした災害情報の数が閾値以上であると判断された場合(S14のYES)、続いて、検索部14によって、ヒットした災害情報に対応付けられた原因ラベルに応じて検索結果が生成されて出力される(S16)。例えば、
図8に示すような検索結果を示す情報が生成されて端末20に送信される。端末20において当該情報が表示等されることで、ユーザは災害情報を参照することができる。以上が、災害情報の検索時に実行される処理である。
【0067】
本実施形態では、係り受け解析の結果及び予め記憶した抽出用表現である手がかり表現が用いられて生成用テキストである原因文が抽出されて、災害情報のグループ分けに用いられる。その結果、適切に災害情報のグループ分けがなされて、各グループに対応する原因ラベルが生成される。生成された原因ラベルが用いられることで、検索によって得られる災害情報が適切に出力される。例えば、上述したように災害の原因に応じてグループ化された状態で検索結果が出力される。このような出力が行われることで、ユーザは、適切に災害情報を把握することができ、作業の危険予知等に有効に利用することができる。このように本実施形態によれば、検索によって得られる災害に係る災害情報を適切に出力することができる。
【0068】
また、上述した実施形態のように出現する文章中の位置に応じた3種類のタイプの手がかり表現を用いて原因文を抽出してもよい。この構成によれば、適切かつ確実に原因文を抽出することができる。その結果、検索によって得られる災害に係る災害情報を適切かつ確実に出力することができる。但し、手がかり表現は、上述した3種類のタイプのものでなくてもよく、係り受け解析の結果を用いて原因文を抽出するものであればどのようなものであってもよい。
【0069】
また、上述した実施形態のように分割表現を用いて災害情報を分割して係り受け解析を行ってもよい。上述したように原因文は、通常、災害情報の後半の災害状況を示す部分に含まれている。従って、この構成によれば、適切かつ確実に原因文を抽出することができる。その結果、検索によって得られる災害に係る災害情報を適切かつ確実に出力することができる。なお、本実施形態では、分割した後半部分に対して係り受け解析を行っていたが、検索対象とする災害情報及び抽出する生成用テキストによっては前半部分に対して係り受け解析を行ってもよい。また、必ずしも災害情報を分割する必要はなく、災害情報そのものに対して係り受け解析を行って生成用テキストを抽出してもよい。
【0070】
また、上述した実施形態のように、災害情報検索システム10は検索部14を備える構成、即ち、検索システムの機能を有していてもよい。この構成によれば、上述したように、例えば、これから行う作業に係る災害情報に対する検索を行うことができる。また検索によって得られる災害に係る災害情報を適切に出力することができる。
【0071】
また、本実施形態のように検索用テキストに対して形態素解析を行って形態素を抽出し、抽出した形態素の災害情報における出現頻度に応じて当該形態素を用いて災害情報の検索を行ってもよい。更には、出現頻度に応じて検索に用いる形態素の数を変更して再度災害情報の検索を行ってもよい。これらの構成によれば、例えば、ユーザが適切に認識できる数の災害情報を検索結果として出力することができる。但し、検索において、必ずしも形態素の出現頻度が用いられる必要はなく、また、形態素解析も行われる必要はない。
【0072】
なお、本実施形態では、災害情報検索システム10は、検索用ラベル生成システム(災害情報取得部11、抽出部12及びラベル生成部13)と、検索システム(検索部14)との両方の機能を有していた。しかしながら、検索用ラベル生成システムと、検索システムとは必ずしも一つのシステムに含まれる必要はなく、別々のシステムであってもよい。この場合、検索システムは、別のシステムである検索用ラベル生成システムによって生成された原因ラベル等の災害情報のグループ毎のラベルを取得して、検索結果の出力に利用する。
【0073】
また、本実施形態では、抽出部12によって抽出される生成用テキストは、災害の原因を示す原因文としたが、必ずしも原因文とする必要はなく、適切に災害情報をグループ分けできるものであればよい。同様にラベル生成部によって生成されるラベルも、原因ラベルとする必要はなく、適切な検索結果の出力に用いられるラベルであればよい。
【符号の説明】
【0074】
10…災害情報検索システム、11…災害情報取得部、12…抽出部、13…ラベル生成部、14…検索部、20…端末、30…災害情報データベース。