(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023183926
(43)【公開日】2023-12-28
(54)【発明の名称】データ分析支援装置、データ分析支援方法及びプログラム
(51)【国際特許分類】
G06F 16/906 20190101AFI20231221BHJP
【FI】
G06F16/906
【審査請求】未請求
【請求項の数】9
【出願形態】OL
(21)【出願番号】P 2022097739
(22)【出願日】2022-06-17
(71)【出願人】
【識別番号】000006013
【氏名又は名称】三菱電機株式会社
(74)【代理人】
【識別番号】100095407
【弁理士】
【氏名又は名称】木村 満
(74)【代理人】
【識別番号】100131152
【弁理士】
【氏名又は名称】八島 耕司
(74)【代理人】
【識別番号】100147924
【弁理士】
【氏名又は名称】美恵 英樹
(74)【代理人】
【識別番号】100148149
【弁理士】
【氏名又は名称】渡邉 幸男
(74)【代理人】
【識別番号】100181618
【弁理士】
【氏名又は名称】宮脇 良平
(74)【代理人】
【識別番号】100174388
【弁理士】
【氏名又は名称】龍竹 史朗
(72)【発明者】
【氏名】伊藤 山彦
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175DA10
5B175FA03
(57)【要約】
【課題】設備機器の運転データのプロパティと関連するプロパティを提示することが可能なデータ分析支援装置、データ分析支援方法及びプログラムを提供する。
【解決手段】受付部105は、設備機器の運転データのプロパティを示すプロパティ名と当該プロパティ名が示すプロパティの値とを含む検索式を受け付ける。抽出部107は、受付部105により受け付けられた検索式に含まれるプロパティ名が示すプロパティと関連する関連プロパティを、設備機器の運転データが格納されたデータウェアハウス101から抽出する。表示部108は、抽出部107により抽出された関連プロパティを表示する。
【選択図】
図3
【特許請求の範囲】
【請求項1】
設備機器の運転データのプロパティを示すプロパティ名と当該プロパティ名が示すプロパティのプロパティ値とを含む検索式を受け付ける受付手段と、
前記受付手段により受け付けられた検索式に含まれるプロパティ名が示すプロパティと関連する関連プロパティを、前記設備機器の運転データが格納されたデータウェアハウスから抽出する抽出手段と、
前記抽出手段により抽出された関連プロパティを表示する表示手段と、を備える、
データ分析支援装置。
【請求項2】
前記抽出手段は、
前記データウェアハウスに格納された運転データのプロパティのうち、前記検索式に含まれるプロパティ名が付与されたプロパティ間の第1類似度と、前記検索式に含まれるプロパティ名が付与されたプロパティであって、前記プロパティ値が示すデータの意味が同じと推定されるプロパティの集合であるプロパティ群のプロパティと前記データウェアハウスに格納された運転データのプロパティとの第2類似度と、を算出する類似度算出手段を含み、
前記関連プロパティは、前記検索式に含まれるプロパティ名と同じプロパティ名が付されているが、前記プロパティ値が示すデータの意味が異なるプロパティ、及び、前記検索式に含まれるプロパティ名と異なるプロパティ名が付されているが、前記プロパティ値が示すデータの意味が同じプロパティであり、
前記抽出手段は、
前記第1類似度に基づいて、前記検索式に含まれるプロパティ名と同じプロパティ名が付されているが、前記プロパティ値が示すデータの意味が異なるプロパティを抽出し、
前記第2類似度に基づいて、前記検索式に含まれるプロパティ名と異なるプロパティ名が付されているが、前記プロパティ値が示すデータの意味が同じプロパティを抽出する、
請求項1に記載のデータ分析支援装置。
【請求項3】
前記類似度算出手段は、
前記プロパティ値を用いて類似度を算出するデータ値類似度算出手段と、
前記設備機器の仕様書から取得した前記プロパティ値の説明記述を用いて類似度を算出するデータ説明記述類似度算出手段と、
前記プロパティ値のデータ型と、前記データウェアハウスにおける前記プロパティ名が付与されたプロパティを有する運転データの数と、に基づいて、前記第1類似度及び第2類似度を、前記データ値類似度算出手段により算出された類似度及び前記データ説明記述類似度算出手段により算出された類似度の1以上により定義する調整手段と、を含む、
請求項2に記載のデータ分析支援装置。
【請求項4】
前記データウェアハウスに格納された運転データのプロパティ名の異表記に関する情報を格納した辞書と、
前記表示手段により表示された関連プロパティに対する評価をユーザから受け付け、当該評価に基づき、前記表示手段により表示された関連プロパティを前記辞書に登録する評価手段と、を備える、
請求項1に記載のデータ分析支援装置。
【請求項5】
前記受付手段により受け付けられた検索式に含まれるプロパティ名を、前記辞書に格納されたプロパティ名であって、プロパティの正式名称として登録された正式プロパティ名に変換する変換手段と、
前記変換手段により変換されたプロパティ名を含む検索式に基づいて、前記データウェアハウスを検索する検索手段と、を備え、
前記表示手段は、前記関連プロパティと共に、前記検索手段により検索された検索結果を表示する、
請求項4に記載のデータ分析支援装置。
【請求項6】
前記辞書は、
複数のユーザのそれぞれが個人用に使用する個別辞書と、
前記複数のユーザが共同で使用する共用辞書と、を含み、
前記個別辞書に登録された情報を前記共用辞書への登録の適否を判定する判定を受け付け、又は、前記評価手段により受け付けられた評価に基づき前記登録への適否を判定し、前記個別辞書に登録された情報が登録に適しているとの判定に基づき、当該判定に係る個別辞書に登録された情報を前記共用辞書へ登録する判定手段を備える、
請求項4又は5に記載のデータ分析支援装置。
【請求項7】
前記データウェアハウスを備える、
請求項1に記載のデータ分析支援装置。
【請求項8】
受付手段が、設備機器の運転データのプロパティを示すプロパティ名と当該プロパティ名が示すプロパティの値とを含む検索式を受け付け、
抽出手段が、前記受付手段により受け付けられた検索式に含まれるプロパティ名が示すプロパティと関連する関連プロパティを、前記設備機器の運転データが格納されたデータウェアハウスから抽出し、
表示手段が、前記抽出手段により抽出された関連プロパティを表示する、
データ分析支援方法。
【請求項9】
コンピュータを、
設備機器の運転データのプロパティを示すプロパティ名と当該プロパティ名が示すプロパティの値とを含む検索式を受け付ける受付手段、
前記受付手段により受け付けられた検索式に含まれるプロパティ名が示すプロパティと関連する関連プロパティを、前記設備機器の運転データが格納されたデータウェアハウスから抽出する抽出手段、
前記抽出手段により抽出された関連プロパティを表示する表示手段、
として機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、データ分析支援装置、データ分析支援方法及びプログラムに関する。
【背景技術】
【0002】
設備機器に関する新サービス、設備機器の新機能等を創出するために、設備機器から収集された運転データを分析する装置及びシステムが知られている。設備機器から収集される運転データには、運転状態、センサにより検出されたセンサ値等、複数の項目に関するデータが含まれており、複数の項目のそれぞれには、設備機器の設計者により名称が付与されている。以下では、運転データの項目を「プロパティ」、項目の名称を「プロパティ名」という。
【0003】
このプロパティ名は、設備機器の設計者の裁量により付与されることがあるため、設計者が異なると、同種の設備機器の同じ情報を示すプロパティについて、異なるプロパティ名が付与されることがある。また、設備機器について新たな機種が追加されると、新たなプロパティが生成されることがあるが、新たなプロパティに既存のプロパティ名が付されることもある。このように、プロパティ名には揺れが存在するため、運転データの分析の際には、分析しようとするプロパティに関連するプロパティを特定し、ユーザに提示する必要がある。
【0004】
プロパティ名の揺れの問題を解消するために、様々な技術が提案されている。例えば、特許文献1には、財務諸表のプロパティ名と、プロパティの値に対して、それぞれ類似度を求め、求めた類似度からプロパティ名の関連性を判定する技術が開示されている。
【先行技術文献】
【特許文献】
【0005】
【発明の概要】
【発明が解決しようとする課題】
【0006】
しかしながら、上記先行技術は、財務諸表のように付与されるプロパティ名の種類が限定されているデータを対象としており、設計者によって異なるプロパティ名が付与されたり、機種の追加に応じて生成された新たなプロパティに既存のプロパティ名が付与されたりする、設備機器の運転データを対象としていない。
【0007】
本開示は、上記事情に鑑みてなされたものであり、設備機器の運転データのプロパティと関連するプロパティを提示することが可能なデータ分析支援装置、データ分析支援方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0008】
上記目的を達成するために、本開示に係るデータ分析支援装置は、
設備機器の運転データのプロパティを示すプロパティ名と当該プロパティ名が示すプロパティの値とを含む検索式を受け付ける受付手段と、
前記受付手段により受け付けられた検索式に含まれるプロパティ名が示すプロパティと関連する関連プロパティを、前記設備機器の運転データが格納されたデータウェアハウスから抽出する抽出手段と、
前記抽出手段により抽出された関連プロパティを表示する表示手段と、を備える。
【発明の効果】
【0009】
本開示によれば、設備機器の運転データのプロパティと関連するプロパティを提示することが可能なデータ分析支援装置、データ分析支援方法及びプログラムを提供することができる。
【図面の簡単な説明】
【0010】
【
図1】実施形態に係るデータ分析支援装置と設備機器との関係を示すブロック図
【
図2】実施形態に係るデータ分析支援装置のハードウェア構成を示すブロック図
【
図3】実施形態に係るデータ分析支援装置の機能構成を示すブロック図
【
図4】実施形態に係るデータレイクに格納された運転データを説明するための図
【
図5】実施形態に係る説明記述の情報を説明するための図
【
図7】実施形態に係る第1プロパティ群及び第2プロパティ群を説明するための図
【
図8】実施形態に係る第3プロパティ群を説明するための図
【
図10】実施形態に係るデータ分析支援装置が実行するデータ分析支援処理を示すフローチャート
【
図11】実施形態に係るデータ分析支援装置が実行する抽出処理を示すフローチャート
【
図12】実施形態に係るデータ分析支援装置が実行するクラスタリング処理を示すフローチャート
【
図13】実施形態に係るデータ分析支援装置が実行するクラスタリング処理を示すフローチャート
【発明を実施するための形態】
【0011】
(実施形態)
図1のデータ分析支援装置100は、複数の設備機器200から収集された運転データの分析を支援するための装置である。
図1に示すように、設備機器200は、ゲートウェイ装置300と有線又は無線により通信可能に接続し、ゲートウェイ装置300は、インターネット600を介して、データレイク400と通信可能に接続し、データレイク400は、ETL(Extract Transform Load)装置500と、有線又は無線により通信可能に接続し、ETL装置500は、データ分析支援装置100と有線又は無線により通信可能に接続する。データ分析支援装置100、データレイク400及びETL装置500は、例えば、クラウドサーバ上で実現される。
【0012】
データ分析支援装置100は、複数の物件に設置された設備機器200から収集された運転データの分析を支援するための装置である。データ分析支援装置100は、データウェアハウス101を含む。データウェアハウス101は、ETL装置500によって検索式で検索可能な形式に変換された運転データを格納するデータベースである。
【0013】
設備機器200は、物件に設置された電気機器である。設備機器200は、例えば、空気調和機、照明機器、換気装置等である。設備機器200は、運転データを、例えば、予め定められた周期で取得し、取得した運転データを、ゲートウェイ装置300を介して、データレイク400に送信する。
【0014】
ゲートウェイ装置300は、設備機器200をインターネット600に接続させるための装置である。
【0015】
データレイク400は、設備機器200から収集した運転データを蓄積するストレージである。データレイク400は、収集した運転データを加工せずに保存する。
【0016】
ETL装置500は、データレイク400に蓄積された運転データを、検索式で検索可能な形式に変換する装置である。ETL装置500は、データレイク400に蓄積された運転データに対して、例えば、文字コードの統一、単位の統一、欠損データ等を行い、CSV(Comma Separated Value)のようなSQL(Structured Query Language)で検索可能なデータ形式に変換する。
【0017】
次に、
図2を参照してデータ分析支援装置100のハードウェア構成について説明する。
【0018】
データ分析支援装置100は、種々の処理を実行するプロセッサ11と、プロセッサ11の作業領域として用いられる主記憶部12と、プロセッサ11の処理に用いられる種々のデータを記憶する補助記憶部13と、外部の装置と通信するための通信部14と、入力された情報を取得する入力部15と、種々の情報を提示する出力部16と、を有する。主記憶部12、補助記憶部13、通信部14、入力部15及び出力部16はいずれも、バス17を介してプロセッサ11に接続される。
【0019】
プロセッサ11は、CPU(Central Processing Unit)を含む。プロセッサ11は、補助記憶部13に記憶されるプログラムを実行することにより、データ分析支援装置100の種々の機能を実現する。
【0020】
主記憶部12は、RAM(Random Access Memory)を含む。主記憶部12には、補助記憶部13からプログラムがロードされる。そして、主記憶部12は、プロセッサ11の作業領域として用いられる。
【0021】
補助記憶部13は、EEPROM(Electrically Erasable Programmable Read-Only Memory)に代表される不揮発性メモリを含む。補助記憶部13は、プログラムの他に、プロセッサ11の処理に用いられる種々のデータを記憶する。補助記憶部13は、プロセッサ11の指示に従って、プロセッサ11によって利用されるデータをプロセッサ11に供給し、プロセッサ11から供給されたデータを記憶する。
【0022】
通信部14は、外部の装置と通信するためのネットワークインタフェース回路を含む。通信部14は、外部の装置から信号を受信して、この信号により示されるデータをプロセッサ11へ出力する。また、通信部14は、プロセッサ11から出力されたデータを示す信号を外部の装置へ送信する。
【0023】
入力部15は、入力キー、ポインティングデバイス等の入力デバイスを含む。入力部15は、データ分析支援装置100のユーザによって入力された情報を取得して、取得した情報をプロセッサ11に通知する。
【0024】
出力部16は、LCD(Liquid Crystal Display)、スピーカ等の出力デバイスを含む。出力部16は、入力部15を構成するポインティングデバイスと一体的に形成されたタッチスクリーンを構成してもよい。出力部16は、プロセッサ11の指示に従って、種々の情報をユーザに提示する。
【0025】
次に、
図3を参照して、データ分析支援装置100の機能について説明する。
【0026】
データ分析支援装置100は、機能的には、検索可能な形式に変換された運転データが格納されたデータウェアハウス101と、プロパティに関する説明記述の情報が格納されたデータ説明記述格納部102と、ユーザが個人用に使用する個別辞書103と、複数のユーザが共同で使用する共用辞書104と、検索式を受け付ける受付部105と、検索式に基づきデータウェアハウス101を検索する検索部106と、検索式に含まれるプロパティ名が示すプロパティの関連プロパティを抽出する抽出部107と、関連プロパティを表示する表示部108と、関連プロパティに対する評価を受け付ける評価部109と、個別辞書103に登録された情報について共用辞書への登録の適否の判定を受け付ける判定部110と、検索式に含まれるプロパティ名を個別辞書103又は共用辞書104に基づいて変換する変換部111と、を備える。
【0027】
データウェアハウス101には、ETL装置500により検索可能な形式に変換された、設備機器200の運転データが格納される。データウェアハウス101は、補助記憶部13により実現される。
【0028】
図4に、データウェアハウス101に格納された運転データの例を示す。
図4の運転データには、運転データが設備機器200により取得された時刻と、設備機器200が設置された物件を示す情報と、設備機器200の機種を示す情報と、運転データのプロパティの情報と、が含まれる。プロパティの情報には、プロパティ名とプロパティの値とが含まれる。
図4のプロパティには、“運転”、“サーミスタ1”、“サーミスタ2”等のプロパティ名が付与されたプロパティが含まれる。以下、プロパティの値を、「プロパティ値」という。例えば、
図4の1行目のレコードは、“2022年5月10日0時1分”に“物件1”の“機種A”の設備機器200から、プロパティ名“運転”のプロパティについてプロパティ値“ON”、プロパティ名“サーミスタ1”のプロパティについてプロパティ値“80”、プロパティ名“サーミスタ2”のプロパティについてプロパティ値“25”、等が収集されたことを示す。
【0029】
図3のデータ説明記述格納部102には、設備機器200の仕様書から取得したプロパティに関する説明記述の情報が格納される。データ説明記述格納部102に格納された説明記述は、プロパティ値の意味を説明するものであり、後述する、データ説明記述類似度算出部107-12による類似度の算出に用いられる。データ説明記述格納部102は、補助記憶部13により実現される。
【0030】
図5に、データ説明記述格納部102に格納された説明記述の情報の例を示す。
図5の説明記述の情報には、設備機器200の機種を示す情報と、機種の運転データのプロパティ名と、プロパティ名が示すプロパティのプロパティ値について機種の仕様書に記載された説明記述と、が含まれる。例えば、
図5の1行目のレコードは、“機種A”の仕様書には、プロパティ名“運転”のプロパティ値の説明として“運転状態”が記載されていたことを示す。
【0031】
図3の個別辞書103及び共用辞書104は、運転データのプロパティ名の異表記に関する情報を格納した辞書である。個別辞書103は、データ分析支援装置100を使用する複数のユーザのそれぞれが個人用に使用する辞書である。また、共用辞書104は、複数のユーザが共同で使用する辞書である。個別辞書103及び共用辞書104は、補助記憶部13により実現される。
【0032】
図6に、個別辞書103に格納されたプロパティ名の異表記に関する情報の例を示す。
図6の個別辞書103には、設備機器200の機種を示す情報と、機種の運転データのプロパティ名と、プロパティ名が示すプロパティのプロパティ値について機種の仕様書に記載された説明記述と、ユーザが登録した正式プロパティ名と、が含まれる。例えば、
図6の1行目のレコードは、“機種A”の仕様書には、プロパティ名“サーミスタ1”のプロパティのプロパティ値について、“吐出温度検知”の説明記述が記載されており、ユーザは、“機種A”のプロパティ名“サーミスタ1”が示すプロパティについて、“吐出温度”を正式名称として登録したことを示す。正式プロパティ名は、後述するように、評価部109によりユーザから受け付けた評価に基づいて登録される。また、正式プロパティ名は、後述するように、変換部111による検索式の変換に用いられる。
【0033】
共用辞書104は、
図6と同じ構造を有する。共用辞書104の正式プロパティ名は、後述するように、判定部110が受け付けたデータ分析支援装置100の管理者の判定に基づいて、或いは、複数のユーザからの評価に基づいて、登録される。
【0034】
図3の受付部105は、設備機器200の運転データのプロパティ名と当該プロパティ名が示すプロパティのプロパティ値とを含む検索式を受け付ける。受付部105は、プロセッサ11及び入力部15が協働することにより実現される。なお、受付部105は、受付手段の一例である。
【0035】
検索式は、ユーザが、データウェアハウス101から所望の運転データを検索するために用いられるものである。検索式には、運転データのプロパティ名と、プロパティ値と、が含まれる。例えば、検索式は、「“運転”が“暖房”で、“サーミスタ1”が“10”℃以下の物件」である。
【0036】
検索部106は、受付部105により受け付けられた検索式に基づき、設備機器200の運転データが格納されたデータウェアハウス101を検索する。検索部106は、プロセッサ11により実現される。なお、検索部106は、検索手段の一例である。
【0037】
例えば、検索部106は、検索式「“運転”が“暖房”で、“サーミスタ1”が“10”℃以下の物件」の条件を満たす運転データを、
図4の運転データが格納されたデータウェアハウス101から検索する。検索部106は、例えば、
図4の運転データのうち、3行目の“物件3”のレコードを検索結果として取得する。
【0038】
抽出部107は、検索式に含まれるプロパティ名が示すプロパティと関連する関連プロパティを、データウェアハウスから抽出する。抽出部107は、プロセッサ11により実現される。なお、抽出部107は、抽出手段の一例である。
【0039】
関連プロパティとは、検索式に含まれるプロパティ名と同じプロパティ名が付されているが、プロパティ値が示すデータの意味が異なるプロパティ、及び、検索式に含まれるプロパティ名と異なるプロパティ名が付されているが、プロパティ値が示すデータの意味が同じプロパティである。
【0040】
例えば、抽出部107は、プロパティ名“運転”が付されているが、プロパティ名“運転”のプロパティ値が示すデータの意味が異なる(例えば、一方は“電源ON/OFF”であるが、他方は“運転モード”を示す)プロパティ、及び、プロパティ名“運転”と異なるプロパティ名(例えば、“電源”)が付されているが、プロパティ値が示すデータの意味が同じ(例えば、両方とも“電源ON/OFF”を示す)プロパティを、関連プロパティとして抽出する。或いは、抽出部107は、プロパティ名“サーミスタ1”が付されているが、“サーミスタ1”のプロパティ値が示すデータの意味が異なる(例えば、一方は“吐出温度検知”を示すが、他方は“外気温度”を示す)プロパティ、及び、プロパティ名“サーミスタ1”と異なるプロパティ名(例えば、“サーミスタ4”)が付されているが、プロパティ値が示すデータと意味が同じ(例えば、両方とも“吐出温度”を示す)プロパティを、関連プロパティとして抽出する。
【0041】
ここで、抽出部107は、類似度算出部107-1と、調整部107-2と、を含む。
【0042】
類似度算出部107-1は、データウェアハウス101に格納された運転データのうち、検索式に含まれるプロパティ名が付与されたプロパティ間の第1類似度と、検索式に含まれるプロパティ名が付与されたプロパティであって、プロパティ値が示すデータの意味が同じと推定されるプロパティ群のプロパティと、データウェアハウス101に格納された運転データのプロパティとの第2類似度と、を算出する。第1類似度及び第2類似度は、プロパティ同士が類似するか否かを判断するために用いられる指標である。なお、類似度算出部107-1は、類似度算出手段の一例である。
【0043】
さらに、類似度算出部107-1は、データ値類似度算出部107-11と、データ説明記述類似度算出部107-12と、を含む。データ値類似度算出部107-11は、プロパティ値を用いて類似度を計算する。また、データ説明記述類似度算出部107-12は、設備機器200の仕様書から取得したプロパティ値の説明記述を用いて類似度を計算する。なお、データ値類似度算出部107-11は、データ値類似度算出手段の一例であり、データ説明記述類似度算出部107-12は、データ説明記述類似度算出手段の一例である。
【0044】
調整部107-2は、プロパティ値のデータ型と、データウェアハウス101におけるプロパティ名が付与されたプロパティを有する運転データの数と、に基づいて、第1類似度及び第2類似度を、データ値類似度算出部107-11により算出された類似度及びデータ説明記述類似度算出部107-12により算出された類似度の1以上により定義する。類似度の計算は、例えば、文字列型のデータに比べて数値型のデータ方が、計算量が多く、また、対象のデータ数が多い程、計算量が多く、時間がかかる。よって、ユーザにストレスのない時間で関連プロパティを提示するために、調整部107-2は、プロパティ値のデータ型と、類似度算出に用いるデータの数に基づいて、第1類似度及び第2類似度を、プロパティ値を用いた類似度、説明記述を用いた類似度の1以上により定義する。なお、調整部107-2は、調整手段の一例である。
【0045】
以下、抽出部107が関連プロパティを抽出する手法を具体的に説明する。
【0046】
まず、抽出部107が、第1類似度に基づいて、検索式に含まれるプロパティ名と同じプロパティ名が付されているが、プロパティ値が示すデータの意味が異なるプロパティを抽出する手法について説明する。例えば、受付部105が受け付けた検索式に含まれるプロパティ名と同じプロパティ名を持つ運転データを、データウェアハウス101から取得し、取得した運転データのプロパティから構成される第1プロパティ群を生成する。例えば、検索式に含まれるプロパティ名が“運転”及び“サーミスタ1”であるとすると、第1プロパティ群には、“運転”又は“サーミスタ1”をプロパティ名にもつプロパティが含まれる。
【0047】
次に、抽出部107は、第1プロパティ群に含まれるプロパティを、プロパティ値のデータ型に基づいて、分類する。例えば、データ型として、文字列型及び数値型の2種類を扱うものとする。例えば、プロパティ名“運転”のプロパティ値は、
図4に示すように文字列で示されるので、抽出部107は、プロパティ名“運転”のプロパティを文字列型の第1プロパティ群“A1”に分類する。また、プロパティ名“サーミスタ1”のプロパティ値は、
図4に示すように数値で示されるので、抽出部107は、プロパティ名“サーミスタ1”のプロパティを数値型の第1プロパティ群“A2”に分類する。
【0048】
図7に、運転データのプロパティについて、データ型に基づいて分類された第1プロパティ群“A1”、“A2”を示す。第1プロパティ群“A1”に分類されたプロパティ名“運転”は、例えば、“機種A”では“運転状態”を示すプロパティに付されているが、“機種B”では“運転モード”を示すプロパティに付されている。また、第1プロパティ群“A2”に分類されたプロパティ名“サーミスタ1”は、例えば、“機種A”では“吐出温度検知”を示すプロパティに付されているが、“機種C”では“外気温度”を示すプロパティに付されている。すなわち、第1プロパティ群には、同じプロパティ名ではあるがプロパティ値が異なる意味を持つプロパティが含まれる。したがって、次に、第1プロパティ群に含まれるプロパティを、プロパティ値が示すデータが同じ意味を持つプロパティに分類する。
【0049】
抽出部107は、第1プロパティ群のプロパティについて、プロパティ値が示すデータが同じ意味を持つと推定されるクラスタにクラスタリングする。クラスタリングにより生成されたクラスタの集合を、第2プロパティ群という。すなわち、第2プロパティ群に含まれるクラスタは、同じプロパティ名が付され、プロパティ値のデータの意味が同じと推定されるプロパティにより構成される。抽出部107は、類似度算出部107-1により算出される、第1類似度を用いてクラスタリングを行う。
【0050】
まず、プロパティ値が文字列型のプロパティについて、第1類似度を求める。例えば、プロパティ値を用いて類似度を算出する場合、文字列型のプロパティ値は、数値型のプロパティ値よりも計算量が少ない。よって、調整部107-2は、第1類似度を、データ値類似度算出部107-11がプロパティ値を用いて算出した類似度と定義する。すなわち、抽出部107は、プロパティ値を用いて算出された類似度に基づいてクラスタリングを実行することにより、文字列型のプロパティ値を有するプロパティの関連プロパティを抽出する。
【0051】
データ値類似度算出部107-11は、データウェアハウス101から、文字列型の第1プロパティ群“A1”に含まれるプロパティ名が付されたプロパティのプロパティ値を取得する。また、調整部107-2は、データ値類似度算出部107-11がデータウェアハウス101に格納された運転データを検索する対象となる期間を決定する。以下、この期間を、「第1検索期間」という。第1検索期間は、第1プロパティ群“A1”に含まれるプロパティ名の数が多いほど、短く設定し、第1プロパティ群“A1”に含まれるプロパティ名の数が少ないほど、長く設定する。
【0052】
例えば、プロパティ名の数が1~10であれば期間は1年、プロパティ名の数が10~100なら検索期間は1ヶ月、プロパティ名の数が100以上なら検索期間は1日、のように、プロパティ名の数と検索期間とが対応付けられたテーブルが、データ分析支援装置100に格納されており、調整部107-2は、このテーブルを参照して、検索期間を決定する。このテーブルの内容は、データ分析支援装置100の管理者により予め定められる。
【0053】
例えば、第1プロパティ“A1”に含まれるプロパティ名の数は1つなので、調整部107-2は検索期間を“1年”と決定し、データ値類似度算出部107-11は、プロパティ名“運転”が付与されたプロパティのプロパティ値を、データウェアハウス101に格納された、現在から“1年”分の運転データを参照して取得する。
【0054】
次に、データ値類似度算出部107-11が、取得したプロパティ値の全てを要素とするベクトルを生成する。以下、このベクトルを「プロパティ値ベクトル」という。
【0055】
例えば、データ値類似度算出部107-11は、プロパティ名“運転”のプロパティ値として、機種Aについて(ON,OFF)、機種Bについて(自動,冷房,暖房,除湿,送風)、機種Cについて(ON,OFF)、機種Dについて(自動,冷房,暖房,除湿)を取得したとする。このとき、データ値類似度算出部107-11は、プロパティ値ベクトルを(ON,OFF,自動,冷房,暖房,除湿,送風)と定義し、プロパティ値ベクトルとして、機種Aについて(1,1,0,0,0,0,0)、機種Bについて(0,0,1,1,1,1,1)、機種Cについて(1,1,0,0,0,0,0)、機種Dについて(0,0,1,1,1,1,0)を生成する。
【0056】
データ値類似度算出部107-11は、プロパティ値ベクトル間の類似度を算出し、抽出部107は、算出された類似度に基づいて、クラスタリングを実行する。プロパティ値ベクトルの類似度は、例えば、ベクトルのコサイン値を使用する。クラスタリングのアルゴリズムは、例えば、Ward法のような公知のアルゴリズムを使用する。
【0057】
図7に、クラスタリングにより得られた第2プロパティ群を示す。プロパティ名“運転”が付された“機種A”及び“機種C”のプロパティは、プロパティ値が“ON”、“OFF”を示すものであり、クラスタリングの結果、第2プロパティ群“B1”に分類される。また、プロパティ名“運転”が付された“機種B”及び“機種D”プロパティは、プロパティ値が“自動”、“冷房”、“暖房”等を示すものであり、クラスタリングの結果、第2プロパティ群“B2”に分類される。すなわち、第2プロパティ群“B1”に含まれるプロパティ名“運転”のプロパティと、第2プロパティ群“B2”に含まれるプロパティ名“運転”のプロパティとは、同じプロパティ名が付されているがデータの意味の異なるプロパティである。
【0058】
次に、プロパティの値が数値型のプロパティについて、第1類似度を求める。数値型のプロパティの類似度は、プロパティ値を時系列データとして、算出する。ここで、数値型のプロパティの類似度は、文字列型のプロパティの類似度よりも計算量が多くなるため、まず、計算量の少ない説明記述の内容に基づいて、クラスタリングを行い、クラスタ内で類似度の比較対象となるプロパティの数を減らす。例えば、Ward法では、クラスタ内の要素数の2乗に比例して計算量が増加するため、予め処理負荷の小さいクラスタリング方法で荒く分割することが、全体の計算量を抑制する有効な方法になる。よって、調整部107-2は、第1類似度を、データ説明記述類似度算出部107-12により算出した類似度と、データ値類似度算出部107-11により算出した類似度と、を含むと定義する。すなわち、抽出部107は、説明記述を用いて算出された類似度と、プロパティ値を用いて算出された類似度とに基づいてクラスタリングを実行することにより、数値型のプロパティ値を有するプロパティの関連プロパティを抽出する。
【0059】
なお、数値型のプロパティ値を有するプロパティであっても、データウェアハウス101における検索式に含まれるプロパティ名が付与されたプロパティを有する運転データが、予め定められた数を下回る場合、調整部107-2は、第1類似度を、データ値類似度算出部107-11により算出した類似度と、定義してもよい。予め定められた値は、データ分析支援装置100の管理者により設定される。
【0060】
まず、データ説明記述類似度算出部107-12は、数値型の第1プロパティ群に含まれるプロパティの説明記述について類似度を算出し、抽出部107は、求めた類似度に基づいてクラスタリングを実行する。
【0061】
例えば、データ説明記述類似度算出部107-12は、データ説明記述格納部102を参照して、第1プロパティ群“A2”に含まれるプロパティ名の説明記述を取得し、取得した説明記述から自立語を抽出し、単語ベクトルを定義する。そして、データ説明記述類似度算出部107-12は、単語ベクトル間の類似度に基づいて、クラスタリングを行う。データ説明記述類似度算出部107-12は、プロパティ名“サーミスタ1”の説明記述から、自立語として、機種Aについて(吐出,温度,検知)、機種Bについて(圧縮機,吐出,温度)、機種Cについて(外気,温度)、機種Dについて(外気,温度)、を抽出したとする。このとき、データ説明記述類似度算出部107-12は、単語ベクトルを(吐出,温度,検知,圧縮機,外気)と定義し、単語ベクトルとして、機種Aについて(1,1,1,0,0)、機種Bについて(1,1,0,1,0)、機種Cについて(0,1,0,0,1)、機種Dについて(0,1,0,0,1)を生成する。
【0062】
次に、データ説明記述類似度算出部107-12は、単語ベクトル間の類似度を算出する。なお、さらに単語ベクトルにtf-idf(term frequency - inverse document frequency)のような重み付けをしてもよい。抽出部107は、算出された類似度に基づいて、クラスタリングをする。抽出部107は、文字列の類似度を計算する既存の手法、例えば、ゲシュタルトパターンマッチング、レーベンシュタイン距離法、ジャロ・ウィンクラー距離法、最長共通部分列等を利用して、クラスタリングを実行してもよい。クラスタリングアルゴリズムは、Ward法など公知のアルゴリズムを使用してもよい。以下、説明記述の類似度に基づくクラスタリングにより得られたクラスタを「サブクラスタ」という。
【0063】
次に、調整部107-2は、データ値類似度算出部107-11がデータウェアハウス101に格納された運転データを検索する対象となる運転データの期間を決定する。以下、この期間を、「第2検索期間」という。調整部107-2は、第1プロパティ群“A1”の場合と同様に、第2検索期間は、サブクラスタに含まれるプロパティ名の数が多いほど、短く設定し、サブクラスタに含まれるプロパティ名の数が少ないほど、長く設定する。
【0064】
例えば、調整部107-2は第2検索期間を“1年”と決定し、データ値類似度算出部107-11は、サブクラスタ毎に、サブクラスタに含まれるプロパティ名のプロパティ値を、データウェアハウス101に格納された、現在から“1年”分の運転データを参照して取得する。そして、データ値類似度算出部107-11は、サブクラスタ毎にプロパティ値の時系列データの類似度を算出し、抽出部107は、算出された類似度に基づいてクラスタリングを実行する。時系列データの類似度は、例えば、時系列データを機種ごとに平均し、同一時系列上の距離を集計して計算してもよい。クラスタリングのアルゴリズムは、例えば、Ward法のような公知のアルゴリズムを使用する。
【0065】
図7に、クラスタリングにより得られた第2プロパティ群を示す。プロパティ名“サーミスタ1”が付された“機種A”及び“機種B”のプロパティは、説明記述に「吐出」、「温度」の自立語が含まれるものであり、クラスタリングの結果、第2プロパティ群“B3”に分類される。また、プロパティ名“サーミスタ1”が付された“機種C”及び“機種D”は、説明記述に「外気」、「温度」の自立語が含まれるものであり、クラスタリングの結果、第2プロパティ群“B4”に分類される。すなわち、第2プロパティ群“B3”に含まれるプロパティ名“サーミスタ1”のプロパティと、第2プロパティ群“B4”に含まれるプロパティ名“サーミスタ1”のプロパティとは、同じプロパティ名が付されているがデータの意味の異なるプロパティである。
【0066】
次に、抽出部107が、第2類似度に基づいて、検索式に含まれるプロパティ名と異なるプロパティ名が付されているが、プロパティ値が示すデータの意味が同じプロパティを抽出する手法について説明する。抽出部107は、第2プロパティ群の各クラスタに対し、プロパティ値が示すデータの意味が同じと推定されるプロパティをデータウェアハウス101に格納された運転データのプロパティから検索する。この場合、データウェアハウス101に格納された運転データ全部を検索対象とするので、調整部107-2は、プロパティ値のデータ型が文字列型及び数値型のプロパティについての第2類似度を、データ説明記述類似度算出部107-12により算出した類似度と、データ値類似度算出部107-11により算出した類似度と、を含むと定義する。すなわち、抽出部107は、説明記述を用いて算出された類似度と、プロパティ値を用いて算出された類似度とに基づいてクラスタリングを実行することにより、数値型のプロパティ値を有するプロパティの関連プロパティを抽出する。
【0067】
例えば、まず、調整部107-2は、第2プロパティ群のクラスタ“B1”~“B4”に含まれるプロパティのプロパティ値が文字列型であるか否かを判定する。次に、データ説明記述類似度算出部107-12は、調整部107-2によりプロパティ値が文字列型であると判定された第2プロパティ群“B1”,“B2”のそれぞれについて説明記述を定義し、第2プロパティ群の説明記述とデータウェアハウス101に格納された運転データのプロパティの説明記述との類似度を算出する。そして、データ説明記述類似度算出部107-12は、閾値TH1以上のプロパティを抽出する。閾値TH1、及び、後述する閾値TH2、TH3、TH4は、データ分析支援装置100の管理者により予め定められるものとする。
【0068】
例えば、データ説明記述類似度算出部107-12は、第2プロパティ群“B1”、“B2”のそれぞれに対するデータ説明記述は、それぞれのプロパティ群に含まれるプロパティの説明記述に対する単語ベクトルの和と定義する。そして、データ説明記述類似度算出部107-12は、データウェアハウス101に含まれる運転データのプロパティの説明記述の単語ベクトルと、第2プロパティ群に対する単語ベクトルとのコサイン値を類似度として算出し、類似度が閾値TH1以上のプロパティを抽出する。
【0069】
次に、データ値類似度算出部107-11は、第2プロパティ群に含まれるプロパティと、抽出された閾値TH1以上のプロパティとの間で、プロパティ値による類似度を算出する。そして、データ値類似度算出部107-11は、類似度が閾値TH2以上のプロパティを抽出する。抽出されたプロパティの集合を第3プロパティ群という。ここで、データ値類似度算出部107-11は、データウェアハウス101に格納された運転データのうち、上記の第1検索期間の運転データを対象に、プロパティ値ベクトルを定義及び生成し、類似度を算出する。
【0070】
第3プロパティ群に含まれるプロパティは、第2プロパティ群のクラスタに含まれるプロパティとプロパティ値の説明記述及びデータ値が類似する。すなわち、第3プロパティ群に含まれるプロパティは、第2プロパティ群のクラスタに含まれるプロパティと異なるプロパティ名が付されているがデータの意味の同じと推定されるプロパティを示すものが含まれる。
【0071】
図8に、第2プロパティ群“B1”,“B2”のそれぞれについて取得された第3プロパティ群を示す。例えば、プロパティ名“運転”の第2プロパティ群“B1”の第3プロパティ群には、第2プロパティ群“B1”に含まれるプロパティの説明記述と同じ説明記述を有する、プロパティ名“電源”のプロパティが含まれる。
【0072】
次に、調整部107-2は、第2プロパティ群のクラスタ“B1”~“B4”に含まれるプロパティのプロパティ値が数値型であるか否かを判定する。データ説明記述類似度算出部107-12は、調整部107-2によりプロパティ値が数値型であると判定された第2プロパティ群“B3”,“B4”のそれぞれについて説明記述を定義し、文字列型の第2プロパティ群“B1”,“B2”と同様に、データウェアハウス101から説明記述間の類似度を算出する。そして、データ説明記述類似度算出部107-12は、閾値TH3以上のプロパティを抽出する。ここで、数値型のプロパティ値のプロパティについての類似度の計算は、文字列型のプロパティ値のプロパティについての類似度の計算よりも、計算量が大きいことを考慮して、閾値TH3を閾値TH1よりも大きい値としてもよい。
【0073】
次に、データ値類似度算出部107-11は、抽出された閾値TH3以上のプロパティと第2プロパティ群に含まれるプロパティとの間で、プロパティ値による類似度を算出する。そして、データ値類似度算出部107-11は、類似度が閾値TH4以上のプロパティを、第3プロパティ群として抽出する。ここで、データ値類似度算出部107-11は、データウェアハウス101に格納された運転データのうち、上記の第2検索期間の運転データを対象に、プロパティ値ベクトルを定義及び生成し、類似度を算出する。
【0074】
図8に、第2プロパティ群“B3”,“B4”のそれぞれについて取得された第3プロパティ群を示す。例えば、プロパティ名“サーミスタ1”の第2プロパティ群“B3”の第3プロパティ群には、第2プロパティ群“B3”に含まれるプロパティの説明記述と類似する説明記述を有する、プロパティ名“サーミスタ4”のプロパティが含まれる。
【0075】
図3の表示部108は、抽出部107により抽出された関連プロパティを表示する。表示部108は、プロセッサ11及び出力部16が協働することにより実現される。なお、表示部108は、表示手段の一例である。
【0076】
例えば、表示部108は、
図9の抽出結果700をデータ分析支援装置100の画面に表示する。
図9の抽出結果700には、抽出部107により抽出された関連プロパティの情報が含まれる。具体的には、抽出結果700には、異なるプロパティにプロパティ名“サーミスタ1”が付与されていると推定されたプロパティを示すテーブル701-1、701-2が含まれる。テーブル701-1は、抽出部107により抽出された第2プロパティ群“B3”、テーブル701-2は、抽出部107により抽出された第2プロパティ群“B4”に対応するものである。また、
図9の抽出結果700には、プロパティ名“サーミスタ1”と同じ意味を有すると推定されるプロパティを示すテーブル702-1,702-2が含まれる。テーブル702-1は、抽出部107により抽出された第2プロパティ群“B3”についての第3プロパティ群、テーブル702-2は、抽出部107により抽出された第2プロパティ群“B4”についての第3プロパティ群に対応するものである。
【0077】
テーブル701-1,701-2,702-1,702-2には、プロパティ名再定義の項目が含まれる。プロパティ名再定義の項目に、ユーザがプロパティ名を入力し、登録ボタン703をすると、入力したプロパティ名が、後述するユーザの個別辞書103に正式プロパティ名として登録される。
【0078】
なお、図示していないが、表示部108により表示される抽出結果には、検索式に含まれたプロパティ名“運転”について、異なるプロパティにプロパティ名“運転”が付与されていると推定されたプロパティ、及び、プロパティ名“運転”と同じ意味を有すると推定されるプロパティを示すテーブルが含まれる。また、表示部108は、検索式「“運転”が“暖房”で、“サーミスタ1”が“10”℃以下の物件」の条件を満たした物件の運転データを、検索結果として、抽出結果700と共に表示する。
【0079】
評価部109は、表示部108により表示された関連プロパティに対する評価をユーザから受け付け、評価に基づき、表示部108により表示された関連プロパティを辞書に登録する。ここで、辞書とは、個別辞書103である。評価部109は、プロセッサ11及び入力部15が協働することにより実現される。なお、評価部109は、評価手段の一例である。
【0080】
関連プロパティに対する評価とは、例えば、抽出部107により抽出された関連プロパティの情報を個別辞書103に登録するか否かの評価である。
【0081】
例えば、
図9のテーブル701-1,701-2,702-1,702-2に含まれるレコードは、クリックにより選択可能であり、いずれかのレコードを選択した後に登録ボタン703を選択すると、評価部109は、レコードの内容を個別辞書に登録する評価を受け付けたと判断し、個別辞書にレコードの内容を登録する。例えば、ユーザXがテーブル702-1の3行目のレコードを選択し、登録ボタン703を選択すると、評価部109は、テーブル702-1の3行目のレコードをユーザXの個別辞書103に登録する評価を受け付けたと判断し、ユーザXの個別辞書に、機種“機種I”、プロパティ名“サーミスタ4”、説明記述“吐出温度”の情報を登録する。
【0082】
また、評価部109は、個別辞書103について、個別辞書103を個人用として使用するユーザとは異なる他のユーザから評価を受け付ける。他のユーザからの評価とは、例えば、あるユーザの個別辞書103のプロパティが他のユーザにより参照されるか否かの評価、及び、あるユーザの個別辞書103を閲覧した他のユーザによるプロパティ名の適否の評価である。
【0083】
例えば、評価部109は、個別辞書103に登録されたプロパティに対する他のユーザによる参照要求を受け付け、参照要求を受け付けた回数、又は、参照を行った人数をプロパティに対応付けて個別辞書103に登録する。例えば、データ分析支援装置100において、ユーザは他のユーザの個別辞書103の情報を用いて、データの分析を行うことができるものとする。ユーザYがデータ分析支援装置100において、ユーザXの個別辞書103を閲覧し、“機種A”のプロパティ名“サーミスタ1”を選択したとすると、評価部109は、“機種A”のプロパティ名“サーミスタ1”のプロパティが参照要求を受け付けたと判断する。そして、評価部109は、参照回数、又は、参照した他のユーザの人数を、個別辞書103の“機種A”のプロパティ名“サーミスタ1”レコードに対応付けて登録する。
【0084】
また、例えば、個別辞書103の各レコードについて、適否の評価を他のユーザが入力することができるとする。評価部109は、ユーザXの個別辞書103に登録されている“機種A”のプロパティ名“サーミスタ1”のレコードについて、ユーザYから“適当”を示す評価を受け付け、“機種A”のプロパティ名“サーミスタ1”のレコードに対応付けて、“適当”の評価を受け付けた回数を登録する。
【0085】
図3の判定部110は、個別辞書103に登録された情報の共用辞書104への登録について適否を判定する判定を受け付け、又は、評価部109により受け付けられた評価に基づき登録への適否を判定し、個別辞書103に登録された情報が登録に適しているとの判定に基づき、判定に係る個別辞書103に登録された情報を共用辞書104へ登録する。判定部110は、プロセッサ11及び入力部15が協働することにより実現される。なお、判定部110は、判定手段の一例である。
【0086】
例えば、判定部110は、データ分析支援装置100の管理者から、個別辞書103に登録されたある情報について共用辞書104への登録の適否を判定する判定を受け付け、受け付けた判定が、登録が適当であるとの判定の場合、個別辞書103に登録された情報を共用辞書104へ登録する。例えば、判定部110は、管理者から、ユーザXの個別辞書103に登録された機種“機種A”、プロパティ名“サーミスタ1”、説明記述“吐出温度”のレコードについて、登録が適当との判定を受け付けると、共用辞書104に機種“機種A”、プロパティ名“サーミスタ1”、説明記述“吐出温度”のレコードを登録する。
【0087】
また、例えば、判定部110は、評価部109により登録された参照回数、又は、参照した他のユーザの人数が、管理者により予め定められた閾値を超えると、閾値を超えたレコードについて登録に適していると判定し、当該レコードを共用辞書104に登録する。或いは、判定部110は、評価部109により登録された“適当”の評価を受け付けた回数が、管理者により予め定められた閾値を超えると、閾値を超えたレコードについて登録に適していると判定し、当該レコードを共用辞書104に登録する。
【0088】
図3の変換部111は、受付部105により受け付けられた検索式に含まれるプロパティ名を、辞書に格納されたプロパティ名であって、プロパティの正式名称として登録された正式プロパティ名に変換する。そして、検索部106は、変換部111により変換されたプロパティ名を含む検索式に基づいて、データウェアハウス101を検索する。ここで、辞書は、個別辞書103、共用辞書104のいずれか、或いは、個別辞書103及び共用辞書104の両方であってもよい。すなわち、変換部111は、個別辞書103を参照してプロパティ名を変換してもよいし、共用辞書104を参照してプロパティ名を変換してもよいし、個別辞書103及び共用辞書104の両方を参照してプロパティ名を変換してもよい。変換部111は、プロセッサ11、入力部15及び出力部16が協働することにより実現される。なお、変換部111は、変換手段の一例である。
【0089】
例えば、変換部111は、受付部105により検索式「“運転”が“暖房”で、“サーミスタ1”が“10”℃以下の物件」を受け付けたとすると、
図6の個別辞書103を参照し、プロパティ名“サーミスタ1”を正式プロパティ名に登録されているプロパティ名“吐出温度”及び“外気温度”を変換先の選択肢としてユーザに提示する。次に、変換部111は、ユーザによりプロパティ名“吐出温度”の選択を受け付けると、検索式のプロパティ名“サーミスタ1”をプロパティ名“吐出温度”に変更する。そして、検索部106は、変換された検索式「“運転”が“暖房”で、“吐出温度”が“10”℃以下の物件」に基づいて、データウェアハウス101を検索する。なお、変換部111は、正式プロパティ名が1つしか登録されていない場合、ユーザの選択を要せず、自動で変換してもよい。或いは、変換部111は、評価部109により登録された参照回数、参照した他のユーザの人数、又は、“適当”の評価を受け付けた回数が最も多い正式プロパティ名に自動で変換してもよい。
【0090】
次に、本実施形態に係るデータ分析支援装置100が実行するデータ分析支援処理について、
図10のフローチャートを用いて説明する。
図10のデータ分析支援処理は、例えば、データ分析支援装置100に電源が投入されると開始される。
【0091】
受付部105は、設備機器200の運転データのプロパティ名と当該プロパティ名が示すプロパティの値とを含む検索式を受け付けたか否かを判断する(ステップS101)。受付部105が、検索式を受け付けたと判断すると(ステップS101;YES)、変換部111は、個別辞書103を参照して検索式を変換し(ステップS102)、さらに、共用辞書104を参照して検索式を変換する(ステップS103)。一方、受付部105が、検索式を受け付けなかったと判断すると(ステップS101;NO)、ステップS109に進む。
【0092】
例えば、受付部105が、検索式「“運転”が“暖房”で、“サーミスタ1”が“10”℃以下の物件」を受け付けたとすると、
図6の個別辞書103を参照し、プロパティ名“サーミスタ1”を正式プロパティ名に登録されているプロパティ名“吐出温度”に変換し、共用辞書104を参照し、プロパティ名“運転”を共用辞書104に正式プロパティ名として登録された“運転モード”に変更する。
【0093】
検索部106は、変換部111により変換されたプロパティ名を含む検索式に基づいて、データウェアハウス101を検索する(ステップS104)。
【0094】
例えば、検索部106は、検索式「“運転モード”が“暖房”で、“吐出温度”が“10”℃以下の物件」に基づいて、データウェアハウス101を検索する。
【0095】
抽出部107は、検索式に含まれるプロパティ名について抽出処理を実行し、検索式に含まれるプロパティ名が示すプロパティと関連する関連プロパティを、データウェアハウス101から抽出する。抽出部107が実行する抽出処理を、
図11のフローチャートを用いて説明する。
【0096】
抽出部107は、検索式に含まれるプロパティ名と同じプロパティ名を持つ運転データを、データウェアハウス101から取得し、取得した運転データのプロパティから構成される第1プロパティ群を生成する(ステップS201)。そして、抽出部107は、第1プロパティ群に含まれるプロパティを、プロパティ値のデータ型に基づいて、分類する(ステップS202)。
【0097】
例えば、抽出部107は、“運転”又は“サーミスタ1”をプロパティ名にもつプロパティから構成される第1プロパティ群を生成する。そして、抽出部107は、プロパティ名“運転”のプロパティを文字列型の第1プロパティ群“A1”に分類し、プロパティ名“サーミスタ1”のプロパティを数値型の第1プロパティ群“A2”に分類する。
【0098】
抽出部107は、分類された第1プロパティ群に、データ型が文字列型の第1プロパティ群が存在するか否かを判断する(ステップS203)。抽出部107は、文字列型の第1プロパティ群が存在すると判断すると(ステップS203;YES)、文字列型の第1プロパティ群に対するクラスタリング処理を実行する(ステップS204)。文字列型の第1プロパティ群に対するクラスタリング処理を、
図12のフローチャートを用いて説明する。
【0099】
調整部107-2は、第1検索期間を決定する(ステップS301)。次に、データ値類似度算出部107-11は、第1検索期間の運転データを検索し、検索した運転データのプロパティ値を取得する(ステップS302)。
【0100】
例えば、調整部107-2は第1検索期間を“1年”と決定し、データ値類似度算出部107-11は、プロパティ名“運転”が付与されたプロパティのプロパティ値を、データウェアハウス101に格納された、現在から“1年”分の運転データを参照して取得する。
【0101】
次に、データ値類似度算出部107-11が、取得したプロパティ値から、プロパティ値ベクトルを定義し、生成する(ステップS303)。そして、データ値類似度算出部107-11は、プロパティ値ベクトル間の類似度を算出し、抽出部107は、算出した類似度に基づいてクラスタリングを実行し、第2プロパティ群を取得する(ステップS304)。
【0102】
例えば、データ値類似度算出部107-11は、プロパティ値ベクトルを(ON,OFF,自動,冷房,暖房,除湿,送風)と定義しプロパティ値ベクトルとして、機種Aについて(1,1,0,0,0,0,0)、機種Bについて(0,0,1,1,1,1,1)、機種Cについて(1,1,0,0,0,0,0)、機種Dについて(0,0,1,1,1,1,0)を生成し、プロパティ値ベクトル間の類似度を算出する。そして、抽出部107は、データ値類似度算出部107-11により算出された類似度に基づいて、
図7に示すように、プロパティ名“運転”のプロパティを、第2プロパティ群“B1”,“B2”に分類する。
【0103】
図11のステップS205に戻り、抽出部107は、分類された第1プロパティ群に、データ型が数値型の第1プロパティ群が存在するか否かを判断する(ステップS205)。抽出部107は、数値型の第1プロパティ群が存在すると判断すると(ステップS205;YES)、数値型の第1プロパティ群に対するクラスタリング処理を実行する(ステップS206)。数値型の第1プロパティ群に対するクラスタリング処理を、
図13のフローチャートを用いて説明する。
【0104】
データ説明記述類似度算出部107-12は、数値型の第1プロパティ群に含まれるプロパティの説明記述について類似度を算出し、抽出部107は、算出された類似度に基づいてクラスタリングを実行することによりサブクラスタを生成する(ステップS401)。
【0105】
例えば、データ説明記述類似度算出部107-12は、第1プロパティ群“A2”に含まれるプロパティ名の説明記述から、単語ベクトルを(吐出,温度,検知,圧縮機,外気)と定義し、機種Aについて(1,1,1,0,0)、機種Bについて(1,1,0,1,0)、機種Cについて(0,1,0,0,1)、機種Dについて(0,1,0,0,1)を生成する。そして、データ説明記述類似度算出部107-12は、単語ベクトル間の類似度を算出し、抽出部107は、算出した類似度に基づいて、サブクラスタを生成する。
【0106】
調整部107-2は、第2検索期間を決定する(ステップS402)。次に、データ値類似度算出部107-11は、第2検索期間の運転データを検索し、検索した運転データのプロパティ値を取得する(ステップS403)。
【0107】
例えば、調整部107-2は第2検索期間を“1年”と決定し、データ値類似度算出部107-11は、サブクラスタ毎に、サブクラスタに含まれるプロパティ名のプロパティ値を、データウェアハウス101に格納された、現在から“1年”分の運転データを参照して取得する。
【0108】
データ値類似度算出部107-11は、サブクラスタ毎にプロパティ値の時系列データの類似度を算出し、抽出部107は、算出された類似度に基づいてクラスタリングを実行し、第2プロパティ群を取得する(ステップS404)。
【0109】
例えば、データ値類似度算出部107-11は、ステップS401において生成されたサブクラスタ毎にプロパティ値の時系列データの類似度を算出し、抽出部107は、算出された類似度に基づいて、
図7に示すように、プロパティ名“サーミスタ1”のプロパティを、第2プロパティ群“B3”,“B4”に分類する。
【0110】
図11のステップS207に戻り、調整部107-2は、第2プロパティ群に含まれるプロパティのプロパティ値が文字列型であるか否かを判定する(ステップS207)。調整部107-2が文字列型であると判定すると(ステップS207;YES)、データ説明記述類似度算出部107-12は、第2プロパティ群の説明記述とデータウェアハウス101に格納された運転データのプロパティの説明記述との類似度を算出し、抽出部107は、閾値TH1以上のプロパティを抽出する(ステップS208)。次に、データ値類似度算出部107-11は、第2プロパティ群に含まれるプロパティと、抽出された閾値TH1以上のプロパティとの間で、プロパティ値による類似度を算出し、抽出部107は、類似度が閾値TH2以上のプロパティを抽出する(ステップS209)。
【0111】
例えば、調整部107-2は、第2プロパティ群“B1”、“B2”が文字列型であると判定すると、データ説明記述類似度算出部107-12は、第2プロパティ群に対する単語ベクトルと、データウェアハウス101に含まれる運転データのプロパティの説明記述の単語ベクトルとのコサイン値を類似度として算出し、抽出部107は、類似度が閾値TH1以上のプロパティを抽出する。次に、データ値類似度算出部107-11は、データウェアハウス101に格納された運転データのうち、第1検索期間の運転データを対象に、プロパティ値ベクトルを定義及び生成し、類似度を算出し、抽出部107は、類似度が閾値TH2以上のプロパティを抽出する。すなわち、データ値類似度算出部107-11は、
図8の第2プロパティ群“B1”,“B2”のそれぞれについて取得された第3プロパティ群のプロパティを抽出する。
【0112】
一方、調整部107-2が文字列型でないと判定すると(ステップS207;NO)、調整部107-2は、第2プロパティ群に含まれるプロパティのプロパティ値が数値型であるか否かを判定する(ステップS210)。調整部107-2が数値型であると判定すると(ステップS210;YES)、データ説明記述類似度算出部107-12は、第2プロパティ群の説明記述とデータウェアハウス101に格納された運転データのプロパティの説明記述との類似度を算出し、抽出部107は、閾値TH3以上のプロパティを抽出する(ステップS211)。次に、データ値類似度算出部107-11は、第2プロパティ群に含まれるプロパティと、抽出された閾値TH3以上のプロパティとの間で、プロパティ値による類似度を算出し、抽出部107は、類似度が閾値TH4以上のプロパティを抽出する(ステップS212)。一方、調整部107-2が数値型でないと判定すると(ステップS210;NO)、
図11の処理を終了し、
図10のステップS106に戻る。
【0113】
例えば、調整部107-2は、第2プロパティ群“B3”、“B4”が数値型であると判定すると、データ説明記述類似度算出部107-12は、第2プロパティ群に対する単語ベクトルと、データウェアハウス101に含まれる運転データのプロパティの説明記述の単語ベクトルとのコサイン値を類似度として算出し、抽出部107は、類似度が閾値TH3以上のプロパティを抽出する。次に、データ値類似度算出部107-11は、データウェアハウス101に格納された運転データのうち、第2検索期間の運転データを対象に、プロパティ値ベクトルを定義及び生成し、類似度を算出し、抽出部107は、類似度が閾値TH4以上のプロパティを抽出する。すなわち、データ値類似度算出部107-11は、
図8の第2プロパティ群“B3”,“B4”のそれぞれについて取得された第3プロパティ群のプロパティを抽出する。一方、調整部107-2が数値型でないと判定すると、
図11の処理を終了し、
図10のステップS106に戻る。
【0114】
図11のステップS106において、表示部108は、検索結果及び抽出結果を表示する(ステップS106)。評価部109は、表示部108により表示された抽出結果に対する評価をユーザから受け付けたか否かを判断する(ステップS107)。評価部109は、抽出結果に対する評価をユーザから受け付けたと判断すると(ステップS107;YES)、評価を個別辞書に登録する(ステップS108)。一方、評価部109は、抽出結果に対する評価をユーザから受け付けていないと判断すると(ステップS107;NO)、ステップS101に戻る。
【0115】
例えば、表示部108は、検索式に対する検索結果と共に、
図9の抽出結果700をデータ分析支援装置100の画面に表示する。評価部109が、ユーザXがテーブル702-1の3行目のレコードを選択し、登録ボタン703を選択すると、評価部109は、テーブル702-1の3行目のレコードをユーザXの個別辞書103に登録する評価を受け付けたと判断し、ユーザXの個別辞書に、機種“機種I”、プロパティ名“サーミスタ4”、説明記述“吐出温度”の情報を登録する。一方、評価部109は、
図9の抽出結果700について、登録の評価を受け付けなかった場合、ステップS101に戻る。
【0116】
ステップS109において、判定部110は、個別辞書103に登録された情報が、共用辞書104への登録に適しているとの判定を受け付けたか否かを判断する(ステップS109)。判定部110は、登録に適しているとの判定を受け付けたと判断すると(ステップS109;YES)、登録に適しているとの判定に係る個別辞書に登録された情報を共用辞書104へ登録する(ステップS110)。一方、判定部110は、登録について適当とする判定を受け付けていないと判断すると(ステップS109;NO)、ステップS111に進む。
【0117】
例えば、判定部110は、管理者から、個別辞書103に登録された機種“機種A”、プロパティ名“サーミスタ1”、説明記述“吐出温度”のレコードについて、登録に適しているとの判定を受け付けると、共用辞書104に機種“機種A”、プロパティ名“サーミスタ1”、説明記述“吐出温度”のレコードを登録する。一方、判定部110は、個別辞書103に登録されたプロパティの情報について、登録に適しているとの判定を受け付けなかった場合、ステップS111に進む。
【0118】
ステップS111において、評価部109は、個別辞書103について、他のユーザから評価を受け付けたか否かを判断する(ステップS111)。評価部109は、個別辞書103について、他のユーザから評価を受け付けたと判断すると(ステップS111;YES)、評価を個別辞書103に対応付けて登録する(ステップS112)。一方、評価部109は、個別辞書103について、他のユーザから評価を受け付けていなと判断すると(ステップS111;NO)、ステップS101に戻る。
【0119】
例えば、評価部109は、ユーザXの個別辞書103に登録されている“機種A”のプロパティ名“サーミスタ1”のレコードについて、ユーザYから“適当”を示す評価を受け付け、ユーザXの個別辞書103の“機種A”のプロパティ名“サーミスタ1”のレコードに対応付けて、“適当”の評価を受け付けた回数を登録する。一方、評価部109は、個別辞書103について他のユーザから評価を受け付けていないと判断すると、ステップS101に戻る。
【0120】
判定部110は、個別辞書103に対する評価が予め定められた閾値を超えるか否かを判断する(ステップS113)。判定部110は、個別辞書103に対する評価が予め定められた閾値を超えると判断すると(ステップS113;YES)、ステップS110に進む。一方、判定部110は、個別辞書103に対する評価が予め定められた閾値を超えていないと判断すると(ステップS113;NO)、ステップS101に戻る。
【0121】
例えば、判定部110は、評価部109により登録された“適当”の評価を受け付けた回数が、管理者により予め定められた閾値を超えると、閾値を超えたレコードについて、登録に適していると判定し、当該レコードを共用辞書104に登録する。一方、判定部110は、“適当”の評価を受け付けた回数が、管理者により予め定められた閾値を超えていないと判断すると、ステップS101に戻る。
【0122】
本実施形態によれば、付与する者によって異なるプロパティ名が付与されたり、機種の追加に応じて生成された新たなプロパティに既存のプロパティ名が付与されたりする設備機器の運転データのプロパティについて、関連するプロパティをユーザに提示することができる。すなわち、ユーザに、同じプロパティ名で異なる内容のデータであるプロパティと、異なるプロパティ名で同じ内容のデータであるプロパティを提示することができる。これにより、多種多様で、プロパティ名に揺れがあるプロパティを有する設備機器の運転データを検索することができ、精度の高い分析を行うことができる。
【0123】
また、本実施形態によれば、プロパティ値のデータ型に応じて、関連するプロパティを抽出する処理の内容を変えることができる。これにより、関連するプロパティを抽出する処理の効率を向上させることができ、ユーザにストレスない時間で関連するプロパティを提示することができる。
【0124】
また、本実施形態によれば、抽出された関連するプロパティの情報を、個別辞書及び共用辞書に登録することができる。これにより、ユーザ及び他のユーザは、提示された関連するプロパティの情報を利用することができる。さらに、抽出された関連するプロパティの情報を正式プロパティ名として登録し、ユーザが入力した検索式に含まれるプロパティ名を、個別辞書及び共用辞書に登録された正式プロパティ名に変換することができる。これにより、プロパティ名に揺れがあるプロパティを有する設備機器の運転データについて、精度の高い検索を行うことができる。
【0125】
(変形例)
以上、本開示の実施形態を説明したが、本開示を実施するにあたっては、種々の形態による変形及び応用が可能である。
【0126】
上記実施形態において、データ分析支援装置100の各機能部は、一つの装置により実現されるとして説明したがこれに限らない。データ分析支援装置100の機能は、複数の装置により実現されてもよい。例えば、データウェアハウス101、データ説明記述格納部102、個別辞書103及び共用辞書104は、それぞれ、異なる装置により実現されてもよい。
【0127】
また、上記実施形態において、データ型を文字列型と数値型の2種類としたが、3種類以上としてもよい。例えば、プロパティ値が、ブーリアン型、整数型、浮動小数点型等のデータ型をとる場合、それらのデータ型に基づいて類似度の算出手法を変えてもよい。
【0128】
また、上記実施形態において、第1検索期間、及び、第2検索期間は、予め定められたテーブルを参照し決定するとしたが、これに限らない。例えば、第1検索期間、及び、第2検索期間は、管理者により定義された数式により求められてもよい。
【0129】
また、上記実施形態の
図10のフローチャートにおいてデータ分析支援処理を示したが、処理の順序はこれに限らない。例えば、ステップS102の処理は、ステップS103の処理の後に実行されてもよい。また、
図11のフローチャートにおいて抽出処理を示したが、処理の順序はこれに限らない。例えば、ステップS202及びステップ203の処理は、ステップS205及びステップS206の処理の後に実行されてもよい。また、調整部107-2が、第1類似度及び第2類似度を定義する処理は、任意のタイミングで行う。例えば、ステップS202の後に行ってもよいし、
図11の抽出処理を開始する前に行ってもよい。
【0130】
また、上記実施形態に係るデータ分析支援装置100の動作を規定する動作プログラムを、既存のパーソナルコンピュータ又は情報端末装置に適用することで、当該パーソナルコンピュータ又は情報端末装置を、実施形態に係るデータ分析支援装置100として機能させることも可能である。
【0131】
また、このようなプログラムの配布方法は任意であり、例えば、CD-ROM(Compact Disk Read-Only Memory)、DVD(Digital Versatile Disk)、メモリカード等のコンピュータ読み取り可能な記録媒体に格納して配布してもよいし、インターネットのような通信ネットワークを介して配布してもよい。
【0132】
本開示は、本開示の広義の精神と範囲を逸脱することなく、様々な実施形態及び変形が可能とされるものである。また、上述した実施形態は、本開示を説明するためのものであり、本開示の範囲を限定するものではない。つまり、本開示の範囲は、実施形態ではなく、請求の範囲によって示される。そして、請求の範囲内及びそれと同等の開示の意義の範囲内で施される様々な変形が、本開示の範囲内とみなされる。
【0133】
以下、本開示の諸態様を付記としてまとめて記載する。
【0134】
(付記1)
設備機器の運転データのプロパティを示すプロパティ名と当該プロパティ名が示すプロパティのプロパティ値とを含む検索式を受け付ける受付手段と、
前記受付手段により受け付けられた検索式に含まれるプロパティ名が示すプロパティと関連する関連プロパティを、前記設備機器の運転データが格納されたデータウェアハウスから抽出する抽出手段と、
前記抽出手段により抽出された関連プロパティを表示する表示手段と、を備える、
データ分析支援装置。
(付記2)
前記抽出手段は、
前記データウェアハウスに格納された運転データのプロパティのうち、前記検索式に含まれるプロパティ名が付与されたプロパティ間の第1類似度と、前記検索式に含まれるプロパティ名が付与されたプロパティであって、前記プロパティ値が示すデータの意味が同じと推定されるプロパティの集合であるプロパティ群のプロパティと前記データウェアハウスに格納された運転データのプロパティとの第2類似度と、を算出する類似度算出手段を含み、
前記関連プロパティは、前記検索式に含まれるプロパティ名と同じプロパティ名が付されているが、前記プロパティ値が示すデータの意味が異なるプロパティ、及び、前記検索式に含まれるプロパティ名と異なるプロパティ名が付されているが、前記プロパティ値が示すデータの意味が同じプロパティであり、
前記抽出手段は、
前記第1類似度に基づいて、前記検索式に含まれるプロパティ名と同じプロパティ名が付されているが、前記プロパティ値が示すデータの意味が異なるプロパティを抽出し、
前記第2類似度に基づいて、前記検索式に含まれるプロパティ名と異なるプロパティ名が付されているが、前記プロパティ値が示すデータの意味が同じプロパティを抽出する、
付記1に記載のデータ分析支援装置。
(付記3)
前記類似度算出手段は、
前記プロパティ値を用いて類似度を算出するデータ値類似度算出手段と、
前記設備機器の仕様書から取得した前記プロパティ値の説明記述を用いて類似度を算出するデータ説明記述類似度算出手段と、
前記プロパティ値のデータ型と、前記データウェアハウスにおける前記プロパティ名が付与されたプロパティを有する運転データの数と、に基づいて、前記第1類似度及び第2類似度を、前記データ値類似度算出手段により算出された類似度及び前記データ説明記述類似度算出手段により算出された類似度の1以上により定義する調整手段と、を含む、
付記2に記載のデータ分析支援装置。
(付記4)
前記データウェアハウスに格納された運転データのプロパティ名の異表記に関する情報を格納した辞書と、
前記表示手段により表示された関連プロパティに対する評価をユーザから受け付け、当該評価に基づき、前記表示手段により表示された関連プロパティを前記辞書に登録する評価手段と、を備える、
付記1から3のいずれか1項に記載のデータ分析支援装置。
(付記5)
前記受付手段により受け付けられた検索式に含まれるプロパティ名を、前記辞書に格納されたプロパティ名であって、プロパティの正式名称として登録された正式プロパティ名に変換する変換手段と、
前記変換手段により変換されたプロパティ名を含む検索式に基づいて、前記データウェアハウスを検索する検索手段と、を備え、
前記表示手段は、前記関連プロパティと共に、前記検索手段により検索された検索結果を表示する、
付記4に記載のデータ分析支援装置。
(付記6)
前記辞書は、
複数のユーザのそれぞれが個人用に使用する個別辞書と、
前記複数のユーザが共同で使用する共用辞書と、を含み、
前記個別辞書に登録された情報を前記共用辞書への登録の適否を判定する判定を受け付け、又は、前記評価手段により受け付けられた評価に基づき前記登録への適否を判定し、前記個別辞書に登録された情報が登録に適しているとの判定に基づき、当該判定に係る個別辞書に登録された情報を前記共用辞書へ登録する判定手段を備える、
付記4又は5に記載のデータ分析支援装置。
(付記7)
前記データウェアハウスを備える、
付記1から6のいずれか1項に記載のデータ分析支援装置。
(付記8)
受付手段が、設備機器の運転データのプロパティを示すプロパティ名と当該プロパティ名が示すプロパティの値とを含む検索式を受け付け、
抽出手段が、前記受付手段により受け付けられた検索式に含まれるプロパティ名が示すプロパティと関連する関連プロパティを、前記設備機器の運転データが格納されたデータウェアハウスから抽出し、
表示手段が、前記抽出手段により抽出された関連プロパティを表示する、
データ分析支援方法。
(付記9)
コンピュータを、
設備機器の運転データのプロパティを示すプロパティ名と当該プロパティ名が示すプロパティの値とを含む検索式を受け付ける受付手段、
前記受付手段により受け付けられた検索式に含まれるプロパティ名が示すプロパティと関連する関連プロパティを、前記設備機器の運転データが格納されたデータウェアハウスから抽出する抽出手段、
前記抽出手段により抽出された関連プロパティを表示する表示手段、
として機能させるプログラム。
【産業上の利用可能性】
【0135】
本開示は、設備機器の運転データのプロパティと関連するプロパティを提示することが可能なデータ分析支援装置、データ分析支援方法及びプログラムを提供することができる。
【符号の説明】
【0136】
11 プロセッサ、12 主記憶部、13 補助記憶部、14 通信部、15 入力部、16 出力部、17バス、100 データ分析支援装置、101 データウェアハウス、102 データ説明記述格納部、103 個別辞書、104 共用辞書、106 検索部、107 抽出部、107-1 類似度算出部、107-11 データ値類似度算出部、107-12 データ説明記述類似度算出部、107-2 調整部、108 表示部、109評価部、110 判定部、111 変換部、200 設備機器、300 ゲートウェイ装置、400 データレイク、500 ETL装置、600 インターネット、700 抽出結果、701-1,701-2,702-1,702-2 テーブル、703 登録ボタン。