IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特開2023-36140業務データ分析装置、業務データ分析システム及び業務データ分析方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023036140
(43)【公開日】2023-03-14
(54)【発明の名称】業務データ分析装置、業務データ分析システム及び業務データ分析方法
(51)【国際特許分類】
   G06F 16/28 20190101AFI20230307BHJP
【FI】
G06F16/28
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2021142985
(22)【出願日】2021-09-02
(71)【出願人】
【識別番号】000005108
【氏名又は名称】株式会社日立製作所
(74)【代理人】
【識別番号】110002365
【氏名又は名称】弁理士法人サンネクスト国際特許事務所
(72)【発明者】
【氏名】天野 光司
(72)【発明者】
【氏名】馬場 恒彦
(72)【発明者】
【氏名】霜鳥 亨
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175FB04
5B175KA06
(57)【要約】
【課題】業務データをより高度に分析すること。
【解決手段】演算装置と、記憶装置とを備え、前記記憶装置は、業務に関するデータである業務データを含む管理対象データを記憶し、前記演算装置は、前記管理対象データに含まれる業務データと、前記管理対象データの管理に係る構造において用いられる業務データとを用いて、前記業務データが前記業務においてどのように使用されているかを分析することを特徴とする業務データ分析装置。
【選択図】図2
【特許請求の範囲】
【請求項1】
演算装置と、
記憶装置とを備え、
前記記憶装置は、業務に関するデータである業務データを含む管理対象データを記憶し、
前記演算装置は、前記管理対象データに含まれる業務データと、前記管理対象データの管理に係る構造において用いられる業務データとを用いて、前記業務データが前記業務においてどのように使用されているかを分析する
ことを特徴とする業務データ分析装置。
【請求項2】
前記業務データは、前記業務に用いられる用語であり、
前記管理対象データは、階層構造のディレクトリに格納され、
前記演算装置は、前記ディレクトリの名称を前記業務データとして使用し、前記階層構造を階層化された識別情報として用いて、前記用語の意味の辞書を作成する
ことを特徴とする請求項1に記載の業務データ分析装置。
【請求項3】
前記演算装置は、前記識別情報を比較して前記階層構造の差分を距離として求めて、業務データ間の関係を評価することを特徴とする請求項2に記載の業務データ分析装置。
【請求項4】
前記演算装置は、階層が深く、前記距離が小さい関係を有する業務データは、限定された範囲で使用されていると評価し、前記階層が深く、前記距離が大きい関係を有する業務データは、広く認知されて業務における価値が高いと評価し、階層が浅く、前記距離に関わらず多数使用されている業務データは、広く認知された一般的な用語であると評価することを特徴とする請求項3に記載の業務データ分析装置。
【請求項5】
前記管理対象データは、前記業務データとして用語を用いて自然言語で記述された文章データであり、
前記演算装置は、前記文章データの用語を一般化することで前記業務データの意味の理解を支援するテンプレートを作成する
ことを特徴とする請求項1に記載の業務データ分析装置。
【請求項6】
前記演算装置は、前記業務データを操作するユーザの挙動を取得し、前記挙動から複数の業務データの関連付けを行うことを特徴とする請求項1に記載の業務データ分析装置。
【請求項7】
前記演算装置は、前記ユーザが同時にアクティブにした複数の業務データを関連する業務データとすることを特徴とする請求項6に記載の業務データ分析装置。
【請求項8】
前記演算装置は、前記業務データの使用の実績を統計的に分析し、同一の意味に用いられる業務データの入れ替わりを識別することを特徴とする請求項1に記載の業務データ分析装置。
【請求項9】
演算装置と、
記憶装置とを備え、
前記記憶装置は、業務に関するデータである業務データを含む管理対象データを記憶し、
前記演算装置は、前記管理対象データに含まれる業務データと、前記管理対象データの管理に係る構造において用いられる業務データとを用いて、前記業務データが前記業務においてどのように使用されているかを分析する
ことを特徴とする業務データ分析システム。
【請求項10】
演算装置が、
業務に関するデータである業務データを含む管理対象データを記憶装置に格納するステップと、
前記管理対象データに含まれる業務データと、前記管理対象データの管理に係る構造において用いられる業務データとを用いて、前記業務データが前記業務においてどのように使用されているかを分析するステップと、
分析結果を出力するステップと
を含むことを特徴とする業務データ分析方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、業務データ分析装置、業務データ分析システム及び業務データ分析方法に関する。
【背景技術】
【0002】
従来、業務データの分析に関し、特開2018-72960号公報(特許文献1)に記載の技術がある。この公報には、「データ分析支援装置は、各業務システム間の関係、各業務データテーブル間の関係、各業務データテーブルが保有する各データ項目間の関係、各業務データテーブルの各レコードが保有する各データ値間の関係を解析して関係ネットワークとして記憶する関係ネットワーク生成部と、データ分析対象となるデータ項目を実績値に基づく第1のデータ種別と、計画値または事前定義に基づく第2のデータ種別に分類するデータ項目分類部と、データ分析に用いるデータ分析用テーブルを生成し蓄積する分析用データテーブル生成部と、組合せてデータ分析が可能なデータ項目群をデータモデルとして生成するデータモデル生成部と、分析対象となるデータ項目を推薦する分析対象項目提示部と、を備える。」という記載がある。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2018-72960号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来の技術では、データ知識の無い人や分野知識のない人でも、テーブル定義情報を用いずに容易に分析対象項目を選択して分析することができる。しかしながら、より高度な分析を行うには、業務データが業務においてどのように使用されているかが重要である。例えば、ある業務に関する用語を分析する場合には、その用語を含んで作成されたデータを分析するのみならず、業務に関わる人物にとってのその用語の意味の明確さや汎用性などを考慮して分析することが望ましい。
【0005】
そこで、本発明では、業務データをより高度に分析することのできる業務データ分析技術を提供することを目的とする。
【課題を解決するための手段】
【0006】
上記目的を達成するために、代表的な本発明の業務データ分析装置及び業務データ分析システムの一つは、演算装置と、記憶装置とを備え、前記記憶装置は、業務に関するデータである業務データを含む管理対象データを記憶し、前記演算装置は、前記管理対象データに含まれる業務データと、前記管理対象データの管理に係る構造において用いられる業務データとを用いて、前記業務データが前記業務においてどのように使用されているかを分析することを特徴とする。
また、代表的な本発明の業務データ分析方法の一つは、演算装置が、業務に関するデータである業務データを含む管理対象データを記憶装置に格納するステップと、前記管理対象データに含まれる業務データと、前記管理対象データの管理に係る構造において用いられる業務データとを用いて、前記業務データが前記業務においてどのように使用されているかを分析するステップと、分析結果を出力するステップとを含むことを特徴とする。
【発明の効果】
【0007】
本発明によれば、業務データをより高度に分析することのできる業務データ分析技術を提供することができる。上記した以外の課題、構成及び効果は以下の実施の形態の説明により明らかにされる。
【図面の簡単な説明】
【0008】
図1】業務データ分析システムの構成の説明図である。
図2】業務データ分析システムが実施する処理の説明図である。(その1)
図3】業務データ分析システムが実施する処理の説明図である。(その2)
図4】業務データ分析システムの処理の概要を示すフローチャートである。
図5】データ意味管理用の統合画面の具体例である。
図6】データの意味の辞書の作成についての説明図である。(その1)
図7】データの意味の辞書の作成についての説明図である。(その2)
図8】データの意味の辞書の作成についての説明図である。(その3)
図9】用語の距離分析アルゴリズムのステップの説明図である。
図10】ユーザの操作を分析する場合の構成図である。
図11】実装依存の意味階層に基づく構造化IDの再定義の説明図である。
図12】データベースの意味階層に基づく構造化IDの再定義の説明図である。
図13】意味の関係の抽出についての説明図である。
図14】構造化IDの生成の処理手順を示すフローチャートである。
図15】ユーザ操作からのデータ意味関係の生成のフローチャートである。
図16】ユーザ操作からのデータ意味関係の生成結果の説明図である。
図17】集密度合いの分析の処理手順を示すフローチャートである。
図18】集密度合いの分析結果の説明図である。
図19】ファイルの文章から構造化データの意味を取得する処理手順を示すフローチャートである。
図20】データ意味のガバナンス管理についての説明図である。(その1)
図21】データ意味のガバナンス管理についての説明図である。(その2)
図22】データ意味のガバナンス管理についての説明図である。(その3)
図23】データ意味理解用のテンプレートを作成する処理手順を示すフローチャートである。
図24】管理テンプレートの自動更新の処理手順を示すフローチャートである。
【発明を実施するための形態】
【0009】
以下、本発明を実施するための形態例について、図を参照して説明する。
なお、本明細書及び図において、実質的に同一の機能又は構成を有する構成要素については、同一の符号を付することにより重複する説明を省略する。
【0010】
図1は、業務データ分析システムの構成の説明図である。
業務データ分析システムは、ユーザ端末1と、業務データ分析装置としてのサーバシステム2を備える。
ユーザ端末1は、その内部にCPU(Central Processing Unit)1-3及び主記憶装置1-4を備えたコンピュータであり、表示装置1-1や補助記憶装置であるディスク1-2などの周辺機器が接続される。
ユーザ端末1は、ユーザ9の操作を受け付けて、業務データを含む管理対象データをサーバシステム2に格納し、管理対象データを用いて業務を行う。
【0011】
サーバシステム2は、1又は複数のサーバ3と、1又は複数のストレージ5を有する。
ストレージ5は、管理対象データなどを記憶する記憶装置である。サーバ3は、自装置のメモリやストレージ5に階層構造のファイルサーバ領域を生成し、管理対象データを格納する。サーバシステム2は、各階層に付された名称を業務データの一種として扱い、階層構造を階層化された識別情報(構造化ID)として用いて、業務データの分析を行う。
【0012】
図1では、サーバ領域6-1の下にディレクトリ6-1-1が生成され、ディレクトリ6-1-1の下に管理対象データであるファイル6-aが格納されている。
この場合、サーバ領域6-1のサーバ領域ID、ディレクトリ6-1-1のディレクトリID、ファイル6-aのファイル名がそれぞれ業務データの一種となり、「サーバ領域ID/ディレクトリID/ファイル名」が識別情報(構造化ID)となる。
さらに、ファイル6-aに含まれる項目IDや値もそれぞれが業務データとなる。
【0013】
ここで、1又は複数のサーバ3の一つであるサーバ3-aを例示し、サーバ3の構成を説明する。サーバ3は、演算装置であるCPU3-1、主記憶装置であるメモリ3-2、ネットワークインターフェースカード(NIC)3-3、ディスクコントローラ3-4、補助記憶装置であるディスク3-5を有する。
【0014】
CPU3-1は、メモリ3-2にプログラムやデータを展開し、プログラムを順次実行することで、各種機能を実現する。
具体的には、メモリ3-2には、OS(Operating System)3-11、構造化ID関係分析機能3-12、データ分析機能3-13などに関するデータが展開される。
【0015】
OS3-11は、サーバ3の基本的な動作の制御を担うプログラム群である。
構造化ID関係分析機能3-12やデータ分析機能3-13などは、管理対象データに含まれる業務データと、前記管理対象データの管理に係る構造において用いられる業務データとを用いて、業務データが業務においてどのように使用されているかを分析する処理を行う。
【0016】
図2及び図3は、業務データ分析システムが実施する処理の説明図である。図2及び図3に示すように、業務データ分析システムが実施する処理には、「データの意味の辞書の作成」、「データの意味理解を促進させるテンプレートの作成」及び「データ意味のガバナンス管理」を含む。
【0017】
まず、データの意味の辞書の作成について説明する。
サーバ3は、既存データのディレクトリ構造やテーブル情報から、データ意味の抽象側を親側識別子として抽出する。親側識別子としては、管理対象データが格納されている場所に至るまでの各階層の名称、管理対象データの名称、テーブルの項目や値に用いられる用語が抽出される。
階層、データ、項目や値などに用いられる用語は、その業務に関わる人物(業務関係者)にとって、十分に汎用的かつ明確な用語であると認識されている可能性が高い。また、これらに用いられる用語は、表記の揺らぎも少なく、業務に関連している可能性が高い。したがって、管理対象データの管理に用いられる用語についても業務データとして分析対象とすることが有効と考えられる。
【0018】
また、サーバ3は、ログデータやDBデータ等の既存のデーから、データ意味の再利用可能な具体的意味を子側識別子として抽出する。ログデータやDBデータに含まれるデータは、業務に直接関係する用語等である可能性が高いためである。
【0019】
また、サーバ3は、既存データの自然言語からデータ意味識別子を生成する。例えば、業務のマニュアルのように、自然言語で記述された文章データには、業務に関する各種の用語が含まれている。そこで、自然言語から単語を抽出することで、データ意味識別子として用いることができる。
【0020】
サーバ3は、親側識別子、子側識別子、データ意味識別子を登録することで、データ意味理解用の辞書を作成する。このデータ意味理解用の辞書が、業務データ分析システムの第1の生成物である。
【0021】
サーバ3は、既存データに対するユーザ(業務関係者)の挙動に対して、集密度の分析を行うことで、データ意味を自動でグループ化し、データ意味識別子間の関係を求める。このデータ意味識別子間の関係が、業務データ分析システムの第2の生成物である。なお、集密度の分析については後述する。
【0022】
次に、データの意味理解を促進させるテンプレートの作成について説明する。
サーバ3は、既存データの自然言語から、用語を抜き出した残りを、データ意味理解を促進させるテンプレートとする。このテンプレートが、業務データ分析システムの第3の生成物である。
【0023】
具体的には、サーバ3は、自然言語で記述された文章に対し、データ意味理解用の辞書に登録済み用語を一般化する処理、すなわち、辞書に登録されている用語を品詞に置き換える処理を行う。
一例として、元の文章が「項目ID1の装置名称2は、動作状態Xのとき障害番号#3を発報する。」であり、「項目ID1の装置名称2」、「動作状態X」、「障害番号#3」が辞書に登録されているならば、テンプレートが次のようになる。
「<名詞/対象/構造化ID>は、<名詞/状態>のとき<名詞/障害識別子>を発報する。」
【0024】
次に、データ意味のガバナンス管理について説明する。
サーバ3は、第1~第3の生成物(データ意味理解用の辞書、データ意味識別子間の関係、データ意味理解を促進させるテンプレート)を用いて、それぞれの情報を「誰がいつまで使っているか」また「同じ意味で同じ表現を使っているか」を統計的に管理する。この統計の結果が第4の生成物であり、例えば、ディレクトリの名称やファイル名称の用語を統一したり、業務関係者にアナウンスをすることで、業務データの運用の管理に利用できる。
【0025】
図4は、業務データ分析システムの処理の概要を示すフローチャートである。
本処理に先立って、サーバ3は、業務データを含む管理対象データをストレージ5などに記憶するステップを実行している。
そのうえで、サーバ3は、各種分析機能を使った既存データの分析を行う(ステップ300)。そして、分析の結果から、データの意味理解用構造化IDの生成、検索用部分IDの生成、およびデータ意味理解用テンプレートの生成を行う(ステップ301)。生成されたデータは、業務データが前記業務においてどのように使用されているかを示すものであり、生成されたデータを分析結果として表示出力し(ステップ302)、処理を終了する。
【0026】
図5は、データ意味管理用の統合画面の具体例である。
図5に示した統合画面は、構造化ID関係分析機能3-12とデータ分析機能3-13に加え、ユーザPC操作分析機能3-14と時系列イベント集密度分析機能3-15の分析の結果を統合して表示する画面である。
【0027】
図5に示した統合画面では、指定された業務区分「root/*/業務1」に関するデータである。ここで、ワイルドカード「*」を用いることで、例えば異なる部署で管理されていても、業務1に関するデータを分析対象とすることができる。
【0028】
この統合画面では、以下の時間的推移を横軸の長さとして表示している。
(1)使われたデータ意味の時間的遷移
(2)実施されたミッション(目的)の時間的遷移
(3)関わったユーザ(業務関係者)の時間的遷移
(4)使用した分析テンプレートの時間的遷移
(5)関係したイベント(制御信号や処理)の時間的遷移
さらに、これらの時間的推移から、以下の情報を求めている。
(6)時間的な集密度から観測された情報のグループ
【0029】
時間的な集密度から観測された情報のグループとは、ある時間範囲内に使用された業務データであり、典型としては、ユーザ(業務関係者)が同時にアクティブにした複数の業務データである。図5では、このグループを、複数の時間的遷移に渡る矩形として示している。
【0030】
図6図8は、データの意味の辞書の作成についての説明図である。
図6は、用語の関係性分析における結果の表示を示している。
グラフ1#―1は、相互関係のある構造化IDにリンクを張って可視化したものである。相互関係の抽出方法は、後述する。
テーブル1#―2は、用語の構造化ID1#―2a、用語1#―2b、相互関係1#―2cを対応付けて表示している。
【0031】
例えば、テーブル1#-2の行1#―3-1では、「root/用語1」が「root/用語2」、「root/抽象概念2/用語6」、「root/用語3」と相互関係を有することを示している。
行1#―3-2に示すように、異なる概念でも、同一表現で同一の意味ならば、相互関係が生まれる。一方、行1#―3-3に示すように、異なる概念で、同一表現でも異なる意味ならば相互関係は生まれない。
【0032】
図7は、用語の距離分析における結果の表示を示している。
例えば、行1#-4-1と行1#-4-2は、グラフ1#-1aに示したように、枝IDを超えて関係が見出されている。一方、行1#-4-3と行1#-4-4は、グラフ1#-1bに示したように、抽象概念2の中だけで関係が見出されている。
【0033】
図8は、用語の距離分析における距離スコアの表示を示している。
図8では、テーブル1#-4に、意味の距離1#-4dの列が追加されている。この意味の距離は、自分自身(例えば、行1#-4-3)の場合に「0」になる。一般概念では、枝が短くなり、例えば、行1#-4-1では「3」となっている。抽象概念をまたぐ行1#-4-2の距離は「4」である。同一抽象概念内、すなわち狭い範囲での意味の関係である行1#-4-4では「1」となっている。
【0034】
図9は、用語の距離分析アルゴリズムのステップの説明図である。
まず、サーバ3は、ステップ1として、比較元となる用語の構造化IDを1#-4aから取得する。具体的には、行1#-4d-1に示したように、1#-4cから比較元が定義されている行を選び、そのIDを1#-4aからコピーする。
【0035】
次に、サーバ3は、ステップ2として、構造化IDを比較する。
条件:<比較元と同じ構造化ID>を満たすならば、行1#-4d-2に示したように、意味の距離を「0」とする。
条件:<共通の親を持ち、個要素が異なる場合>には、同一の親まで上がり、対象用語までたどり着く移動距離を測る。このとき、親IDまでの距離は1とする。
この結果、行1#-4d-3に示したように、「root/抽象概念2/用語6」と「root/用語1」を比較すると距離は「3」となる。
また、行1#-4d-4に示したように、「root/抽象概念2/用語6」と「root/抽象概念1/用語6」を比較すると距離は「4」となる。
また、行1#-4d-5に示したように、「root/抽象概念2/用語6」と「root/抽象概念2/用語7」を比較すると距離は「2」となる。
【0036】
この分析により、サーバ3は以下の評価を行う。
(1)構造化IDの階層が深く、意味の距離が短い関係は、ごく限られた世界でしか認知されず、使われていないデータの意味である。
(2)構造化IDの階層が深く、意味の距離が長い関係は、広く認知され価値が高いデータの意味である。階層が深いことは特定業務への関連の度合いが高いことを示唆し、距離が長く、特に別の抽象概念を超えて関係を持つことは他の業務への関連があることを示唆する。したがって、階層の深さと距離の長さが両立すれば、特定業務に関係が深く、他の業務にも関連する重要なデータと考えることができるのである。
(3)構造化IDの階層が浅く、意味の距離に関わらず多数使われている関係は、広く認知され一般的に認知されている(テンプレート化している)データの意味である。
【0037】
図10は、ユーザの操作を分析する場合の構成図である。図10に示した構成は、図1の構成と比べ、ユーザ端末1の主記憶装置1-4に操作分析部7をさらに備えている。また、サーバ3は、ネットワーク4を介して複数の端末8と接続され、メモリ3-2にはユーザPC操作分析機能3-14及び時系列イベント集密度分析機能3-15をさらに備えている。その他の構成は図1と同様であるので、同一の構成要素には同一の符号を付して説明を省略する。
なお、本構成では、ユーザ端末1は、分析に関する権限を有するデータ管理者としてのユーザに使用されるのに対し、端末8は、分析に関する権限を有さず、業務データの格納と利用を行う業務関係者としてのユーザに使用される。
【0038】
図11は、実装依存の意味階層に基づく構造化IDの再定義の説明図である。
図11では、実装依存のファイルサーバ領域での意味階層を参考に、公開する意味階層を新たに定義するためのテーブル関係を示している。
実装環境の意味絞り込み概念の取り込みにより作成された構造化IDと項目IDは、ユーザ(業務関係者)の定義に基づくものである。この構造化IDと項目IDから、データの意味共有を目的に選択、もしくは新規作成により公開用構造化IDを定義し、公開する。
【0039】
例えば、「日時」、「発生時刻」、「タイムスタンプ」などの時間に関する項目は、「時刻」に統一し、「業務データ<番号>」と「業務項目<番号>」などの表記の揺らぎも「業務<番号>」の表記に統一する。
さらに、構造化IDに用いられるディレクトリ名などもシステムの運用に合わせて既定の値の指定や、ユーザ(業務関係者)への任意設定の許可を行うことで、利便性と柔軟性を向上することができる。
【0040】
図12は、データベースの意味階層に基づく構造化IDの再定義の説明図である。
図12では、データベースのファイルサーバ領域での意味階層を参考に、公開する意味階層を新たに定義するためのテーブル関係を示している。
データベースの意味絞り込み概念の取り込みにより作成された構造化IDと項目IDは、データベースの自動作成処理によるものである。この構造化IDと項目IDから、データの意味共有を目的に選択、もしくは新規作成により公開用構造化IDを定義し、公開する。
具体的には、図11と同様に、項目の統一と構造化IDの設定を行うことで、利便性と柔軟性を向上することができる。
【0041】
図13は、意味の関係の抽出についての説明図である。
サーバ3の構造化ID関係分析機能3-12は、公開用の構造化IDをほぐす処理と、ほぐした部分的な構造化IDで公開されている構造化IDを検索することで、意味の関係を抽出する。
【0042】
公開用の構造化IDをほぐす処理は、構造化IDの各階層の一部をワイルドカードで置き換えることで行う。構造化IDの一部をワイルドカードで置き換えることで、ほぐした部分的な構造化IDが複数得られる。構造化ID関係分析機能3-12は、それぞれの部分駅な構造化IDで、公開された構造化IDを検索する。その結果、元の構造化IDと一部が一致する構造化IDが抽出され、抽出された構造化IDが元の構造化IDと関連のある構造化IDとなる。
ここでの検索結果は、「該当なし」であれば、その使い方がされていないことを示す。検索結果が多すぎれば、意味が広すぎることを示す。検索結果が1個だけであれば、十分な情報があり、その1つの言葉だけで共通理解が得られることを示す。
【0043】
図14は、構造化IDの生成の処理手順を示すフローチャートである。
サーバ3のデータ分析機能3-13は、実装依存の情報から、顧客の思考順序を含む衝突しない構造化IDを生成する。
【0044】
具体的には、データ分析機能3-13は、次のステップS3-13-1~ステップS3-13-6の処理を順次実行する。
ステップS3-13-1
データ分析機能3-13は、データを識別するための実装上でのIDをクローリングにより収集する。その後、ステップS3-13-2に進む。
ステップS3-13-2
データ分析機能3-13は、全体となっているID(先に利用されたID)を親IDとして、区切り文字を挟みID同士を結合する。その後、ステップS3-13-3に進む。
ステップS3-13-3
データ分析機能3-13は、作成されたデータはデータベースが対象か否かを判定する。データベースが対象であれば(Yes)、作成されたデータをDB用の管理表に格納し、ステップS3-13-1に進む。データベースが対象でなければ(No)、ステップS3-13-4に進む。
ステップS3-13-4
データ分析機能3-13は、作成されたデータはファイルが対象か否かを判定する。ファイルが対象であれば(Yes)、作成されたデータをファイル用の管理表に格納し、ステップS3-13-1に進む。ファイルが対象でなければ(No)、ステップS3-13-5に進む。
ステップS3-13-5
このステップに進んだ場合には、作成されたデータはデータベースでもファイルでもない。データ分析機能3-13は、データの格納を行わずにステップS3-13-6に進む。
ステップS3-13-6
データ分析機能3-13は、指定された全てのサーバを探索したか否かを判定する。未探索のサーバが残っていれば(No)、ステップS3-13-1に進む。全てのサーバを探索済みであれば(Yes)、処理を終了する。
【0045】
図15は、ユーザ操作からのデータ意味関係の生成のフローチャートである。
まず、ユーザ端末1の操作分析部7は、アクティブウィンドウから取得できる情報よりユーザ(業務関係者)の操作や使用した情報を収集する(ステップS7-1)。次に、操作分析部7は、収集した情報にユーザ端末の識別子を含む情報を付加したログ情報をサーバ3に送信する(ステップS7-2)。
【0046】
その後、サーバ3に存在する、ユーザPC操作分析機能3-14は、ログからユーザ(業務関係者)が認知している概念を外枠とした構造化ID関係の集合を生成する(ステップS3-14-1)。
そして、ユーザPC操作分析機能3-14は、ユーザ(業務関係者)が認知している構造化IDの関係集合を、「時系列の順序関係」と「同一時刻に開いていた情報」の相互関係とともにストレージ5に保存する(ステップS3-14-2)。
さらに、ユーザPC操作分析機能3-14は、ユーザ(業務関係者)がコピーペーストを繰り返しているログを「要システム連携作業」として、その意味の関係をストレージ5に保存する。
【0047】
図16は、ユーザ操作からのデータ意味関係の生成結果の説明図である。
同図に示すように、ユーザ操作からデータ意味関係を生成することで得られる操作分析ログでは、構造化IDには時刻情報が付される。また、同一時刻に開いていた情報が相互関係IDに登録される。また、コピーペースト作業の有無が登録される。
【0048】
図17は、集密度合いの分析の処理手順を示すフローチャートである。
サーバ3の時系列イベント集密度分析機能3-15は、人間の能力を超える集密度合で発生した情報の関係を分析するため、次のステップS3-15-1~ステップS3-15-8の処理を順次実行する。
【0049】
ステップS3-15-1
時系列イベント集密度分析機能3-15は、ストレージ5やファイルサーバ領域6-1で管理されているイベント収集する。その後、ステップS3-15-2に進む。
ステップS3-15-2
時系列イベント集密度分析機能3-15は、対象のイベントが周期動作イベントであるか否かを判定する。周期イベントであれば(Yes)、ステップS3-15-3に進む。周期イベントでなければ(No)、ステップS3-15-5に進む。
ステップS3-15-3
時系列イベント集密度分析機能3-15は、対象のイベントが状態変化イベントであるか否かを判定する。状態変化イベントであれば(Yes)、ステップS3-15-4に進む。状態変化イベントでなければ(No)、ステップS3-15-1に進む。
ステップS3-15-4
時系列イベント集密度分析機能3-15は、集密グループ名を生成し、管理表1#-aに格納する。その後、ステップS3-15-5に進む。
ステップS3-15-5
時系列イベント集密度分析機能3-15は、指定されたアイドル状態以内のデータであるか否かを判定する。指定されたアイドル状態以内のデータであれば(Yes)、ステップS3-15-6に進む。指定されたアイドル状態以内のデータでなければ(No)、ステップS3-15-7に進む。
ステップS3-15-6
時系列イベント集密度分析機能3-15は、集密関係があると見なしグループ化を行う。その後、ステップS3-15-1に進む。
ステップS3-15-7
時系列イベント集密度分析機能3-15は、新しい集密グループ名を生成する。その後、ステップS3-15-8に進む。
ステップS3-15-8
時系列イベント集密度分析機能3-15は、指定された全てのサーバを探索したか否かを判定する。未探索のサーバが残っていれば(No)、ステップS3-15-1に進む。そして、全てのサーバを探索した場合(Yes)、処理を終了する。
【0050】
図18は、集密度合いの分析結果の説明図である。
図18では、時刻「20201101T12:00:01」~時刻「20201101T12:00:02」の構造化IDを同時に使用されたと見なして1つの集密グループ「root/集密グループ/20201101T12:00:01」に入れている。そして、時刻「20201101T13:00:01」の構造化IDは、別の集密グループ「root/集密グループ/20201101T13:00:01」としている。
【0051】
図19は、ファイルの文章から構造化データの意味を取得する処理手順を示すフローチャートである。
サーバ3のデータ分析機能3-13は、次のステップS3-13-10~ステップS3-13-13の処理を順次実行する。
【0052】
ステップS3-13-10
データ分析機能3-13は、自然言語を含むファイルを取得する。その後、ステップS3-13-11に進む。一例として、取得されたファイルには「項目ID1の装置名称2は、動作状態Xのとき障害番号#3を発報する。」などの文章が含まれている。
ステップS3-13-11
データ分析機能3-13は、形態素解析により、「句読点」「接続詞」など専門用語外の言葉で文章を分解し、用語の接続関係をスラッシュに置き換える。その後、ステップS3-13-12に進む。用語の接続関係をスラッシュに置き換える処理は、例えば日本語では格助詞「の」をスラッシュに置き換えればよい。このステップの結果、「項目ID1/装置名称2」、「動作状態X」、「障害番号#3」、「発報」などのデータが得られる。
【0053】
ステップS3-13-12
データ分析機能3-13は、形態素解析で分離されたデータの意味が、ほぐして管理されている構造化IDに該当するか否かを判定する。該当しなければ(No)、データ分析機能3-13は、データの意味を新規追加する。該当するならば(Yes)、ステップS3-13-13に進む。
ステップS3-13-13
データ分析機能3-13は、データの意味を再利用しデータの意味理解統計を更新し、処理を終了する。
【0054】
図20図22は、データ意味のガバナンス管理についての説明図である。
図20図22では、データ分析機能3-13は、データの意味を再利用しデータの意味理解統計を更新している(ステップS3-13-14)。
【0055】
図20では、ある年の2月に設備の入れ替えがあり、新設備に対応した用語を用いるよう、ガバナンスが施行されている。この結果、カバナンス施行日から旧設備に起因した情報の意味の使用頻度が低下するとともに、新設備の情報の意味の使用頻度が増加している。そして、ある時点で、旧設備の情報利用者がゼロになり、切り替えが完了している。
このように、図20の分析結果表示では、同一の意味に用いられる業務データの入れ替わりを識別し、可視化することができる。
【0056】
図21では、同じくある年の2月に設備の入れ替えがあり、新設備に対応した用語を用いるよう、ガバナンスが施行されている。この結果、製造部ではガバナンス施行日から新設備の情報の意味の使用頻度が大きく増加し、生産技術部では新設備の情報の意味の使用頻度が徐々に増加し、工務部では新設備の情報の意味の使用頻度に関する増加はさらにゆるやかである。この変化を分析すると、製造部でまず増え、他の部署でも増え始めていることから、皆が合意形成に使っている重要な単語である可能性を指摘できる。
このように、図21の分析結果表示では、用語の使用頻度の推移を部署ごとに対比して可視化することができる。
【0057】
図22では、用語の使用頻度をヒストグラムで比較し、用語間の関係をグラフとして表示している。例えば、ヒストグラムの値が大きい用語は、利用者が多く、重要な意味を持つ用語と評価することができる。
グラフにおいては、用語の使用頻度が円の大きさとして示され、用語間の関係がリンクとして示されている。グラフで孤立しているデータ意味は、整理対象とすることができる。また、情報の繋がりで意味理解の度合いを管理することができる。円が大きいほど、リンクが多いほど価値があることになる。この価値は、例えば、「その言葉を知っていることが業務の理解に重要である」、「その言葉を知っていれば、その部署と会話ができる」といったように、業務の遂行における価値である。
【0058】
図23は、データ意味理解用のテンプレートを作成する処理手順を示すフローチャートである。
サーバ3のデータ分析機能3-13は、次のステップS3-13-20~ステップS3-13-23の処理を順次実行する。
【0059】
ステップS3-13-20
データ分析機能3-13は、自然言語を含むファイルを取得する。その後、ステップS3-13-21に進む。一例として、取得されたファイルには「項目ID1の装置名称2は、動作状態Xのとき障害番号#3を発報する。」などの文章が含まれている。
ステップS3-13-21
データ分析機能3-13は、登録されたデータ意味を形態素解析で品詞に置き換えてテンプレートを作成する。その後、ステップS3-13-22に進む。このステップの結果、「<名詞/対象/構造化ID>は、<名詞/状態>のとき<名詞/障害識別子>を発報する。」のようなテンプレートが得られる。
【0060】
ステップS3-13-22
データ分析機能3-13は、作成されたテンプレートがデータの意味理解を促進するテンプレート構造に既に登録されているか否かを判定する。登録されていなければ(No)、データ分析機能3-13は、データの意味を新規追加する。登録されているならば(Yes)、ステップS3-13-23に進む。
ステップS3-13-23
データ分析機能3-13は、データ意味理解のテンプレートを更新し、処理を終了する。
【0061】
図24は、管理テンプレートの自動更新の処理手順を示すフローチャートである。
サーバ3のデータ分析機能3-13は、次のステップS3-13-30~ステップS3-13-32の処理を順次実行する。
【0062】
ステップS3-13-30
データ分析機能3-13は、図21図23の分析結果をもとにデータの利用傾向が低下しているか確認する。その後、ステップS3-13-31に進む。
ステップS3-13-31
データ分析機能3-13は、利用頻度が低下しているか否かを判定する。利用頻度が低下していなければ(No)、現状維持する。利用頻度が低下しているならば(Yes)、ステップS3-13-32に進む。
【0063】
ステップS3-13-32
データ分析機能3-13は、データ管理テーブルから当該データの識別子を検索し、削除を行うことで自動更新し、処理を終了する。
【0064】
上述してきたように、業務データ分析装置としてのサーバ3を含む業務データ分析システムは、演算装置としてのCPU3-1と、記憶装置としてのストレージ5を備え、前記記憶装置は、業務に関するデータである業務データを含む管理対象データを記憶し、前記演算装置は、前記管理対象データに含まれる業務データと、前記管理対象データの管理に係る構造において用いられる業務データとを用いて、前記業務データが前記業務においてどのように使用されているかを分析する。
このため、業務データをより高度に分析することができる。
【0065】
また、前記業務データは、前記業務に用いられる用語であり、前記管理対象データは、階層構造のディレクトリに格納され、前記演算装置は、前記ディレクトリの名称を前記業務データとして使用し、前記階層構造を階層化された識別情報として用いて、前記用語の意味の辞書を作成する。
このため、ディレクトリの名称に用いられる用語は、業務に関わる人物にとって明確で汎用性が高いと認識されていることを考慮して、業務データを高度に分析することができる。すなわち、ディレクトリ構造を含めて収集することで、データを識別するための人の概念とグルーピング、階層構造、意思疎通を実現するための識別名称を収集し、分析の対象に含めることができる。
【0066】
また、前記演算装置は、前記識別情報を比較して前記階層構造の差分を距離として求めて、業務データ間の関係を評価する。
一例として、前記演算装置は、階層が深く、前記距離が小さい関係を有する業務データは、限定された範囲で使用されていると評価し、前記階層が深く、前記距離が大きい関係を有する業務データは、広く認知されて業務における価値が高いと評価し、階層が浅く、前記距離に関わらず多数使用されている業務データは、広く認知された一般的な用語であると評価する。
このため、距離と階層の関係から、ローカル用語か概念を超えて意味合いを持つかを識別し、業務データを高度に分析することができる。
【0067】
また、前記管理対象データは、前記業務データとして用語を用いて自然言語で記述された文章データであり、前記演算装置は、前記文章データの用語を一般化することで前記業務データの意味の理解を支援するテンプレートを作成することができる。
このため、マニュアルなどの文章から、業務データを高度に分析することができる。
【0068】
また、前記演算装置は、前記業務データを操作するユーザの挙動を取得し、前記挙動から複数の業務データの関連付けを行うことができる。
一例として、前記演算装置は、前記ユーザが同時にアクティブにした複数の業務データを関連する業務データとする。
このため、ユーザが何を一度に使っているかの局所性をユーザの挙動として収集し、業務データを関連付けて高度な分析を行うことができる。例えば、用語の距離が離れているにもかかわらず、同じタイミングで使われているものは、意思疎通を図るために重要な言葉のグループであるという観点での分析が可能である。
【0069】
また、前記演算装置は、前記業務データの使用の実績を統計的に分析し、同一の意味に用いられる業務データの入れ替わりを識別する。
このため、業務データの使用の実態について高度な分析を行うことができる。
【0070】
なお、本発明は上記の実施例に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施例は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明した全ての構成を備えるものに限定されるものではない。また、かかる構成の削除に限らず、構成の置き換えや追加も可能である。
【符号の説明】
【0071】
1:ユーザ端末、1-1:表示装置、1-2:ディスク、2:サーバシステム、3:サーバ、3-1:CPU、3-12:ID関係分析機能、3-13:データ分析機能、3-14:ユーザPC操作分析機能、3-15:時系列イベント集密度分析機能、3-2:メモリ、3-4:ディスクコントローラ、3-5:ディスク、5:ストレージ、6-1:サーバ領域、6-1:ファイルサーバ領域、6-1-1:ディレクトリ、6-a:ファイル、7:操作分析部、8:端末、9:ユーザ
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24