特開2023-142769 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社　日立産業制御ソリューションズの特許一覧

特開2023-142769文字列分類装置、プログラムおよび文字列分類方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023142769

(43)【公開日】2023-10-05

(54)【発明の名称】文字列分類装置、プログラムおよび文字列分類方法

(51)【国際特許分類】

G06F 16/35 20190101AFI20230928BHJP

【ＦＩ】

G06F16/35

【審査請求】未請求

【請求項の数】11

【出願形態】ＯＬ

(21)【出願番号】P 2022049845

(22)【出願日】2022-03-25

(71)【出願人】

【識別番号】000153443

【氏名又は名称】株式会社日立産業制御ソリューションズ

(74)【代理人】

【識別番号】110001807

【氏名又は名称】弁理士法人磯野国際特許商標事務所

(72)【発明者】

【氏名】行田将之佑

(72)【発明者】

【氏名】佐藤宏一

(72)【発明者】

【氏名】平賀太竣

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175DA01

5B175DA08

5B175FA03

(57)【要約】

【課題】データクレンジングを効率化する。
【解決手段】データクレンジング装置１００は、イベントログの１つの項目に含まれる文字列をベクトルに変換するベクトル化部１１２と、次元圧縮処理により、ベクトルを低次元ベクトルに変換する次元圧縮部１１３と、クラスタリング処理により、低次元ベクトルを１つ以上のクラスタに分類するクラスタリング部１１４と、クラスタの細分化および統合化のうち少なくとも一方を行ってクラスタを再編する細分統合化部１１５とを備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

文字列をベクトルに変換するベクトル化部と、
次元圧縮処理により、前記ベクトルを低次元ベクトルに変換する次元圧縮部と、
クラスタリング処理により、前記低次元ベクトルを１つ以上のクラスタに分類するクラスタリング部と、
前記クラスタの細分化および統合化のうち少なくとも一方を行って前記クラスタを再編する細分統合化部とを備える
文字列分類装置。

【請求項2】

前記細分統合化部は、
各クラスタに含まれるベクトルが示す文字列間の類似度が所定値より大きくなるように、前記クラスタを再編する
請求項１に記載の文字列分類装置。

【請求項3】

前記クラスタリング部は、
前記クラスタに含まれるベクトルが示す文字列間の類似度が所定値より小さい場合に、当該クラスタに含まれる低次元ベクトルに対して前記クラスタリング処理を行う
請求項１に記載の文字列分類装置。

【請求項4】

前記細分統合化部は、
前記クラスタのなかで、１つのクラスタと、他のクラスタとの類似度が所定値より大きい場合に、当該１つのクラスタからの類似度が最大となるクラスタと、当該１つのクラスタとを統合して新たなクラスタとし、
２つの前記クラスタの類似度は、それぞれの当該クラスタに含まれるベクトルが示す文字列間の類似度に基づいて算出される
請求項１に記載の文字列分類装置。

【請求項5】

前記類似度は、
ベクトルが示す文字列の文字列編集距離に基づいて算出される
請求項２～４の何れか１項に記載の文字列分類装置。

【請求項6】

前記ベクトル化部は、自然言語処理技術を用いて文字列をベクトルに変換する
請求項１に記載の文字列分類装置。

【請求項7】

前記クラスタリング処理は、Ｘ－ｍｅａｎｓである
請求項１に記載の文字列分類装置。

【請求項8】

前記次元圧縮部は、
２次元ベクトルまたは３次元ベクトルに変換する
請求項１に記載の文字列分類装置。

【請求項9】

前記文字列は、イベントログの１つの項目に含まれる文字列である
請求項１に記載の文字列分類装置

【請求項10】

コンピュータを、
文字列をベクトルに変換するベクトル化部、
次元圧縮処理により、前記ベクトルを低次元ベクトルに変換する次元圧縮部、
クラスタリング処理により、前記低次元ベクトルを１つ以上のクラスタに分類するクラスタリング部、および
前記クラスタの細分化および統合化のうち少なくとも一方を行って前記クラスタを再編する細分統合化部として機能させるための
プログラム。

【請求項11】

文字列分類装置が、
文字列をベクトルに変換するステップと、
次元圧縮処理により、前記ベクトルを低次元ベクトルに変換するステップと、
クラスタリング処理により、前記低次元ベクトルを１つ以上のクラスタに分類するステップと、
前記クラスタの細分化および統合化のうち少なくとも一方を行って前記クラスタを再編するステップとを実行する
文字列分類方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、イベントログからプロセスマイニングに必要なログの抽出、分類、可視化を行う文字列分類装置、プログラムおよび文字列分類方法に関する。

【背景技術】

【0002】

業務プロセスの自動化や効率化を進めるソリューションとして、プロセスマイニングが注目されている。プロセスマイニングは、イベントログから業務プロセス全体を把握し、実際の業務プロセスを発見して監視することで改善ポイントを具体的に特定して、業務の効率化を支援する手法である。

【0003】

イベントログについて、ＩＥＥＥプロセスマイニングタスクフォース作成の「プロセスマイニングマニフェスト」（インターネット<ＵＲＬ：https://www.tf-pm.org/upload/1580738062276.pdf>参照）には「イベントの集合をイベントログと言っているが、必ずしもイベントを専用のログファイルに格納する必要はない。イベントは、データベースのテーブル、メッセージログ、メールアーカイブ、トランザクションログ、その他のデータソースに格納される。」と記載されている。

【0004】

プロセスマイニングを行うには、使用するイベントログにある一定以上の品質が求められる。上記の「プロセスマイニングマニフェスト」では、このイベントログの品質の指標をイベントログの成熟度レベルとして定義している。イベントログの成熟度レベルは１～５が定義されており、プロセスマイニング適用可能レベルはレベル３以上としている。原理上、レベル２以下でもプロセスマイニングは適用可能であるが、成熟度が低いことにより得られる結果の信頼性は低いものとなる。

【0005】

プロセスマイニングの従来技術として、特許文献１に記載の技術がある。この技術は、複数のタスクに対応する複数のノード、およびノード間の遷移関係を示すエッジを含むプロセス群から、プロセスを複数のサブプロセスに分割することで、プロセス全体の把握、プロセス全体の最適化、およびサブプロセスの把握、サブプロセスの最適化を支援する技術である。
特許文献１に記載の技術で使われているプロセス群は、イベントログから生成されている。このイベントログは自動的かつ体系的に記録されており、成熟度レベル４以上と想定される。このため、信頼性の高いプロセスマイニングの結果を得ることができる。

【先行技術文献】

【特許文献】

【0006】

【特許文献1】特開２０２０－２０１６０１号公報

【発明の概要】

【発明が解決しようとする課題】

【0007】

企業の業務プロセスを示すイベントログは体系的に記録されていないことが多く、同時に成熟度レベルが低いケースが多い。特許文献１には成熟度レベルが低いイベントログデータについての記載がなく、プロセスマイニングの対象として想定されていない。
イベントログの成熟度レベルが低い場合には取得したイベントログからプロセスマイニングに必要なログを整理・抽出・分類して品質を上げる、データの前処理またはデータクレンジングと呼ばれる工程が必要となる。企業の業務プロセスを示すシステムのログは膨大であり、形式は多種多様である。このため、実務上、データクレンジング処理に多大な労力と作業時間が掛かることが大きな問題となっており、これを解決することが求められている。
本発明は、このような背景を鑑みてなされたものであり、データクレンジングを効率化する文字列分類装置、プログラムおよび文字列分類方法を提供することを課題とする。

【課題を解決するための手段】

【0008】

上記した課題を解決するため、本発明に係る文字列分類装置（データクレンジング装置）は、イベントログの１つの項目に含まれる文字列をベクトルに変換するベクトル化部と、次元圧縮処理により、前記ベクトルを低次元ベクトルに変換する次元圧縮部と、クラスタリング処理により、前記低次元ベクトルを１つ以上のクラスタに分類するクラスタリング部と、前記クラスタの細分化および統合化のうち少なくとも一方を行って前記クラスタを再編する細分統合化部とを備える。

【発明の効果】

【0009】

本発明によれば、データクレンジングを効率化する文字列分類装置、プログラムおよび文字列分類方法を提供することができる。上記した以外の課題、構成および効果は、以下の実施形態の説明により明らかにされる。

【図面の簡単な説明】

【0010】

【図1】本実施形態に係るデータクレンジング装置の機能ブロック図である。

【図2】本実施形態に係るイベントログを示す図である。

【図3】本実施形態に係る表形式に変換後のイベントログを示す図である。

【図4】本実施形態に係り、書式を修正し、欠落項目を含むレコードを削除した後のイベントログを示す図である。

【図5】本実施形態に係る文字列のベクトルへの変換を説明するための図である。

【図6】本実施形態に係る文字列の低次元ベクトルへの変換を説明するための図である。

【図7】本実施形態に係るデータクレンジング処理のフローチャートである。

【図8】本実施形態に係る分類処理のフローチャートである。

【図9】本実施形態に係る低次元ベクトルの３次元プロット図である。

【図10】本実施形態に係る低次元ベクトルのヒストグラムである。

【発明を実施するための形態】

【0011】

≪データクレンジング装置の概要≫
以下に本発明を実施するための形態（実施形態）におけるデータクレンジング装置（文字列分類装置）を説明する。データクレンジング装置は、イベントログを入力とし、特定の項目でイベントを分類して可視化する。特定の項目とは、例えば動作名といったイベントの名称や種別、内容を示す項目であって、業務プロセス内のアクティビティ（ステップ）を示す項目である。この特定の項目の具体例は後記する。

【0012】

イベントログによっては、同じ内容や、同種と見なせるアクティビティであっても、異なる名称／文字列として記録される場合があり、プロセスマイニングを行う上での障害となる。データクレンジング装置は、アクティビティを示す項目に対してクラスタリング処理や自然言語処理を用いて、イベントを意味または内容が近いグループに分ける。このようなデータクレンジング装置が前処理したイベントログを用いることで、適切なプロセスマイニングを行うことができるようになる。

【0013】

≪データクレンジング装置の構成≫
図１は、本実施形態に係るデータクレンジング装置１００（文字列分類装置）の機能ブロック図である。データクレンジング装置１００はコンピュータであり、制御部１１０、記憶部１２０、および入出力部１８０を備える。入出力部１８０には、ディスプレイやキーボード、マウスなどのユーザインターフェイス機器が接続される。入出力部１８０が通信デバイスを備え、他の装置とのデータ送受信が可能であってもよい。また入出力部１８０にメディアドライブが接続され、記録媒体を用いたデータのやり取りが可能であってもよい。

【0014】

≪データクレンジング装置：記憶部≫
記憶部１２０は、ＲＯＭ（Read Only Memory）やＲＡＭ（Random Access Memory）、ＳＳＤ（Solid State Drive）などの記憶機器を含んで構成される。記憶部１２０には、イベントログデータベース１３０、およびプログラム１２８が記憶される。イベントログデータベース１３０には、処理対象となるイベントログ５１０（後記する図２参照）が格納される。プログラム１２８は、後記するデータクレンジング処理（後記する図７参照）の記述が含まれる。

【0015】

≪データクレンジング装置：制御部≫
制御部１１０は、ＣＰＵ（Central Processing Unit）を含んで構成され、前処理部１１１、ベクトル化部１１２、次元圧縮部１１３、クラスタリング部１１４、細分統合化部１１５、表示制御部１１６、および後処理部１１７が備わる。

【0016】

≪データクレンジング装置：前処理部≫
前処理部１１１は、イベントログデータベース１３０から処理対象となるイベントログ５１０（後記する図２参照）を読み込み、項目の抽出や書式の修正、空白データの削除を行う。

【0017】

図２は、本実施形態に係るイベントログ５１０を示す図である。イベントログ５１０は例えばテキストデータであって、１つの行が１つのイベントを示す。イベントは、業務プロセス内の１つのステップ、または業務システムに対する操作であり、例えば業務システムの１つの画面で示される処理である。１つの行は、例えばセミコロン（「；」）で区切られる１つ以上の項目を含む。イベントログ５１０において各行の最初の項目は、日付と時刻を含む。最初の２行は、２つの項目を含むが、他の行は、それぞれ操作者、操作ページ名、処理名、動作名、受注番号という項目を含んでいる。なお、後記するようにイベントログ５１０では動作名がアクティビティに相当する。

【0018】

前処理部１１１は、イベントログ５１０を読み込み、セミコロンで区切られた項目を列とする表形式のイベントログ５２０（後記する図３参照）に変換する。なお区切りとなる文字はセミコロンとは限らず他の文字であってもよい。前処理部１１１は、データクレンジング装置１００の利用者に問い合わせて区切り文字を取得してもよい。

【0019】

図３は、本実施形態に係る表形式に変換後のイベントログ５２０を示す図である。イベントログ５２０の行（レコード）は、イベントログ５１０の行（イベント）に対応する。イベントログ５２０の列（属性）は、イベントログ５１０の項目に対応する。イベントログ５２０の列の名称（項目名）は、イベントログ５１０の項目から取得されているが、データクレンジング装置１００の利用者に問い合わせて取得されてもよいし、既定の名称から選択されてもよい。最初の項目は日付や時刻を含んでおり、データクレンジング装置１００が既定の名称である「タイムスタンプ」を列の名称としている。

【0020】

次に前処理部１１１は、各項目の書式を修正する。例えば前処理部１１１は、日時や日付の書式を既定の書式に修正する。他にも前処理部１１１は、例えば全角の英数字を半角の英数字に統一する（「Ａ：３」を「A:3」に変換）ようにしてもよい。
続いて前処理部１１１は、欠落した項目（空白の項目）を含むレコードを削除する。イベントログ５２０において最初の２行は、操作ページ名や処理名が欠落しており、削除される。なお前処理部１１１は、特定の項目が空白であるレコードを削除してもよい。特定の項目とは、プロセスマイニングに必要な項目であって、例えばタイムスタンプやアクティビティ、ケース識別情報の項目であって、イベントログ５１０においては、タイムスタンプ、動作名、受注番号のことである。

【0021】

図４は、本実施形態に係り、書式を修正し、欠落項目を含むレコードを削除した後のイベントログ５３０を示す図である。タイムスタンプについて、イベントログ５１０，５２０と比較して、日付の書式が変わり、日付と時刻以外のデータが削除されている。またイベントログ５１０，５２０の最初の２行を含め、欠落項目のあるレコードが削除されている。

【0022】

≪データクレンジング装置：ベクトル化部≫
図１に戻って制御部１１０の説明を続ける。ベクトル化部１１２は、イベントログ５３０におけるアクティビティに相当する文字列をベクトルに変換する。アクティビティとは、業務プロセス内でのステップ、業務システムの操作を示し、イベントの名称または内容を示す。イベントログ５３０においては、動作名がアクティビティになる。

【0023】

ベクトルは多数次元のベクトルであり、ベクトル化部１１２は自然言語処理技術を用いて、文字列をベクトルに変換する。ベクトル化部１１２がベクトル化に用いる自然言語処理技術の例として、ＢＥＲＴ（Bidirectional Encoder Representations from Transformers）がある。他にｗｏｒｄ２ｖｅｃを用いてもよいし、生成したベクトルでクラスタリングや回帰モデルの作成が可能である自然言語処理技術であればよい。
図５は、本実施形態に係る文字列のベクトルへの変換を説明するための図である。図５では、動作名にある文字列が７６８次元のベクトルに変換されることが示されている。なお、７６８次元は一例である。

【0024】

以上に説明したように、データクレンジング装置１００に備わるベクトル化部１１２は、イベントログの１つの項目に含まれる文字列をベクトルに変換する。
ベクトル化部１１２は、自然言語処理技術を用いて文字列をベクトルに変換する。

【0025】

≪データクレンジング装置：次元圧縮部≫
図１に戻って制御部１１０の説明を続ける。次元圧縮部１１３は、ベクトル化部１１２が出力した多数次元のベクトルを低次元のベクトルに変換する。次元圧縮部１１３は、例えば可視化可能な２次元ないしは３次元のベクトルに変換する。低次元ベクトルへの変換する次元圧縮処理の手法としては、主成分分析（Principal Component Analysis（ＰＣＡ））が代表的である。以下では、次元圧縮部１１３は３次元ベクトルに変換するものとする。
図６は、本実施形態に係る文字列の低次元ベクトルへの変換を説明するための図である。動作名の文字列は、ベクトル化部１１２により７６８次元のベクトルに変換され、さらに次元圧縮部１１３により３次元のベクトルに変換される。

【0026】

以上に説明したように、データクレンジング装置１００に備わる次元圧縮部１１３は、次元圧縮処理により、ベクトルを低次元ベクトルに変換する。
また次元圧縮部１１３は、２次元ベクトルまたは３次元ベクトルに変換する。

【0027】

≪データクレンジング装置：クラスタリング部と細分統合化部≫
図１に戻って制御部１１０の説明を続ける。クラスタリング部１１４、および細分統合化部１１５は、交互に処理を行って、３次元ベクトル（動作名にある文字列）を分類する。クラスタリング部１１４は、３次元ベクトルを、例えばＸ－ｍｅａｎｓのクラスタリング手法を用いてクラスタに分類する。
細分統合化部１１５は、クラスタに含まれる３次元ベクトルに対応する文字列の類似度（距離）を基にクラスタを分割して細分化する。また、細分統合化部１１５は、異なるクラスタに含まれる３次元ベクトルに対応する文字列の類似度（距離）を基にクラスタを統合する。このように細分統合化部１１５は、クラスタに含まれる３次元ベクトルに対応する文字列の類似度を基にクラスタを再編する。クラスタリング部１１４、および細分統合化部１１５の処理詳細は、後記する図８を参照して説明する。

【0028】

以上に説明したように、データクレンジング装置１００に備わるクラスタリング部１１４は、クラスタリング処理により、低次元ベクトルを１つ以上のクラスタに分類する。
またクラスタリング処理は、Ｘ－ｍｅａｎｓである。
データクレンジング装置１００に備わる細分統合化部１１５は、クラスタの細分化および統合化のうち少なくとも一方を行ってクラスタを再編する。

【0029】

≪データクレンジング装置：後処理部≫
後処理部１１７は、動作名にある文字列を、当該文字列を含むクラスタの代表元となる文字列に置き換えてイベントログ５３０を出力する。代表元は、クラスタの中心に近い文字列であってもよいし、クラスタのなかで最短長の文字列であってもよいし、他の文字列との類似度の平均値が最大の文字列であってもよいし、クラスタに含まれる任意の文字列であってもよい。

【0030】

≪データクレンジング処理≫
図７は、本実施形態に係るデータクレンジング処理のフローチャートである。
ステップＳ１１において前処理部１１１は、イベントログデータベース１３０にあるイベントログ５１０（図２参照）を読み込む。
ステップＳ１２において前処理部１１１は、イベントログ５１０に含まれる項目を抽出する。イベントログ５１０においては、セミコロン（「；」）で区切られる項目を抽出する。

【0031】

ステップＳ１３において前処理部１１１は、ステップＳ１２で抽出された項目の項目名を特定する。イベントログ５１０においては、タイムスタンプ、操作者名、処理名、動作名、受注番号の項目名が特定される。
ステップＳ１４において前処理部１１１は、項目の書式を修正する。例えば前処理部１１１は、日付と時刻の書式を既定の形式に修正（変換）する。
ステップＳ１５において前処理部１１１は、空の項目を含むイベント（レコード、行）を削除する。このステップＳ１５までの処理結果が、イベントログ５３０（図４参照）である。

【0032】

ステップＳ１６においてベクトル化部１１２は、動作名にある文字列を高次元のベクトル化に変換する。
ステップＳ１７において次元圧縮部１１３は、ステップＳ１６で変換された多数次元のベクトルを低次元のベクトルに変換する。
ステップＳ１８は分類処理であり、後記する図８を参照して詳細を説明する。
ステップＳ１９において表示制御部１１６は、分類結果として後記する３次元プロット図６１０やヒストグラム６２０（後記する図９、図１０参照）を表示する。

【0033】

ステップＳ２０において表示制御部１１６は、利用者による分類結果の評価を取得する。表示制御部１１６は、評価がＯＫならば（ステップＳ２０→ＯＫ）ステップＳ２２に進み、ＮＧならば（ステップＳ２０→ＮＧ）ステップＳ２１に進む。
ステップＳ２１において細分統合化部１１５は、後記する分類処理のパラメータ（後記するδ）を調整してステップＳ１８に戻る。例えば細分統合化部１１５は、利用者に問い合わせてパラメータを調整してもよい。
ステップＳ２２において後処理部１１７は、動作名にある文字列を、当該文字列を含むクラスタの代表元となる文字列に置き換えてイベントログ５３０（図４参照）を出力する。

【0034】

≪分類処理≫
図８は、本実施形態に係る分類処理のフローチャートである。図８を参照して、ステップＳ１８（図７参照）の詳細を説明する。
ステップＳ３１においてクラスタリング部１１４は、ステップＳ１７の結果である低次元ベクトルに対して、例えばＸ－ｍｅａｎｓを用いたクラスタリング処理を行う。

【0035】

ステップＳ３２において細分統合化部１１５は、ステップＳ３１の結果に含まれる各クラスタに対して、ステップＳ３３～Ｓ３５を行う処理を開始する。
ステップＳ３３において細分統合化部１１５は、クラスタに含まれる低次元ベクトルに対応する動作名の文字列の数が１以上であれば（ステップＳ３３→ＹＥＳ）ステップＳ３４に進み、項目が１つならば（ステップＳ３３→ＮＯ）次のクラスタに対してステップＳ３３～Ｓ３５を繰り返す。

【0036】

ステップＳ３４において細分統合化部１１５は、クラスタ内の低次元ベクトルが示す文字列の類似度が所定値δより小さいならば（ステップＳ３４→ＹＥＳ）ステップＳ３５に進み、δ以上ならば（ステップＳ３４→ＮＯ）次のクラスタに対してステップＳ３３～Ｓ３５を繰り返す。２つの文字列の類似度は、例えば文字列編集距離であるレーベンシュタイン距離を基に算出される。例えば、類似度＝１－（レーベンシュタイン距離／長い方の文字列長）として算出される。

【0037】

ステップＳ３５において細分統合化部１１５は、自身（細分統合化部１１５）を呼び出し、クラスタに含まれる低次元ベクトルに対して分類処理を行う。換言すれば、細分統合化部１１５はクラスタに含まれる低次元ベクトルを全体の低次元ベクトルと見なして、本処理である分類処理を再帰的に呼び出して実行する。再帰的に呼び出された分類処理におけるステップＳ３１で、クラスタリング部１１４によるクラスタリング処理によって、クラスタが細分化される。

【0038】

ステップＳ３６において細分統合化部１１５は、ステップＳ３１～Ｓ３５の結果に含まれる各クラスタに対して、ステップＳ３７～Ｓ３８を行う処理を開始する。
ステップＳ３７において細分統合化部１１５は、他のクラスタとの類似度がδより大きければ（ステップＳ３７→ＹＥＳ）ステップＳ３８に進み、類似度がδ以下ならば（ステップＳ３７→ＮＯ）次のクラスタに対してステップＳ３７～Ｓ３８を繰り返す。２つのクラスタ間の類似度は、例えばそれぞれのクラスタに含まれる低次元ベクトルに対応する文字列の類似度の最大値であってもよいし、クラスタの代表元である低次元ベクトルに対応する文字列の類似度であってもよい。
ステップＳ３８において細分統合化部１１５は、類似度が最大となるクラスタと統合する。詳しくは、ステップＳ３７～Ｓ３８の繰り返し処理の対象であるクラスタと、当該クラスタとの類似度が最大となるクラスタとを統合して１つのクラスタとする。

【0039】

ステップＳ３４～Ｓ３５において細分統合化部１１５は、クラスタ内の低次元ベクトルが示す文字列の類似度が所定値より小さいならば、当該クラスタを分割している。また細分統合化部１１５は、他のクラスタとの類似度が所定値より大きいクラスタがあれば、当該クラスタを類似度が最大となる他のクラスタと統合する。このような処理を行うことで、文字列の類似度が所定値以上となる低次元ベクトルごとにクラスタを構成するように、クラスタが再編される。

【0040】

以上に説明したように、細分統合化部１１５は、各クラスタに含まれるベクトルが示す文字列間の類似度が所定値より大きくなるように、クラスタを再編する。
また上記したステップＳ３４～Ｓ３５で説明したように、クラスタリング部１１４は、クラスタに含まれるベクトルが示す文字列間の類似度が所定値より小さい場合に、当該クラスタに含まれる低次元ベクトルに対してクラスタリング処理を行う。
また上記したステップＳ３７～Ｓ３８で説明したように、細分統合化部１１５は、クラスタのなかで、１つのクラスタと、他のクラスタとの類似度が所定値より大きい場合に、当該１つのクラスタからの類似度が最大となるクラスタと、当該１つのクラスタとを統合して新たなクラスタとする。
２つのクラスタの類似度は、それぞれの当該クラスタに含まれるベクトルが示す文字列間の類似度に基づいて算出される。また文字列の類似度は、ベクトルが示す文字列の文字列編集距離に基づいて算出される。

【0041】

≪３次元プロット図≫
図９は、本実施形態に係る低次元ベクトルの３次元プロット図６１０である。低次元ベクトルは、動作名の文字列を３次元ベクトルに変換したベクトルである（図６参照）。表示制御部１１６は、入出力部１８０に接続されたディスプレイに３次元プロット図６１０を出力する。
３次元プロット図６１０に記載の直線は、３つの軸における値が０，±４，±８，・・・である線である。円は、３次元空間にプロットされた低次元ベクトルを示す。同じクラスタに含まれる円は、同じパターンで記載している。図９ではパターンでクラスタを示しているが、色でクラスタを示してもよい。プロット図６１０の下側には凡例として、プロットされた円と、当該円に対応するクラスタに含まれる３次元ベクトルの数、代表元の文字列（動作名）が示される。

【0042】

表示制御部１１６は利用者の指示に従って、３次元プロット図６１０を拡大縮小したり、視点の位置や向きを変えたりしてもよい。また表示制御部１１６は、全てクラスタの低次元ベクトルを表示してもよいし、上位（クラスタに含まれる低次元ベクトル数が多い）のクラスタや、利用者が指定した文字列を含む低次元ベクトルのクラスタの低次元ベクトルを表示してもよい。表示制御部１１６は、個々の３次元ベクトルをプロットするのではなく、クラスタの代表元をクラスタに含まれる３次元ベクトルの数の応じた大きさの円としてプロットして表示してもよい。他に表示制御部１１６は、プロットされた低次元ベクトルが指定されると、当該低次元ベクトルに対する文字列（動作名）を表示するようにしてもよい。このような表示を参照して利用者は、動作名の文字列をクラスタに分類した結果（分類結果）を評価する。

【0043】

≪ヒストグラム≫
図１０は、本実施形態に係る低次元ベクトルのヒストグラム６２０である。表示制御部１１６は、入出力部１８０に接続されたディスプレイにヒストグラム６２０を出力する。表示制御部１１６は、全てクラスタを表示してもよいし、上位（クラスタに含まれる低次元ベクトル数が多い）のクラスタや、利用者が指定した文字列を含む低次元ベクトルのクラスタを表示してもよい。また表示制御部１１６は、クラスタに対応するヒストグラムの長方形が指定されると、当該クラスタに含まれる低次元ベクトルの文字列を表示するようにしてもよい。このような表示を参照して利用者は、動作名の文字列をクラスタに分類した結果（分類結果）を評価する。

【0044】

≪データクレンジング処理の特徴≫
データクレンジング装置１００は、動作名（アクティビティ）を示す文字列について、文字列を高次元ベクトルに変換した後に低次元に圧縮したベクトルに対するクラスタリング処理（図８記載のステップＳ３１参照）や、文字列の類似度による細分化（ステップＳ３５参照）、統合（ステップＳ３８）を繰り返して分類する。このような分類を行うことで、異なる動作名（文字列）であっても、同じ動作（アクティビティ）と考えられる動作（アクティビティ）に分類される。このように分類された動作に変換されたイベントログを用いることで適切なプロセスマイニングを行うことができるようになる。

【0045】

以下に、データクレンジング装置１００による動作名の分類の一例を説明する。処理前のイベントログ５１０の件数は１００００件である。なお空白の項目を含んで、前処理部１１１により削除されるレコードはない。
この１００００件のレコードに含まれる動作名の文字列は、３６６個である。このなかで文字列「見積SYS-0003_0000 初期表示」で始まる動作名は３００個超あり、違いは動作名の文字列の末尾にある数字である。従来のデータクレンジング処理では、文字列が一致しない限り、異なる動作名と判断される。従来のデータクレンジング処理の後にプロセスマイニングを行うと、望ましい結果が得られない。考えられる原因として、同じ動作を表している動作名が、文字列の違いにより異なる動作として扱ってしまうために、プロセスマイニングにおける動作発生件数などの統計が、正確に行われないことがある。

【0046】

このような場合に利用者が判断して、末尾にある数字などの不要な文字列を削除することで動作名をまとめて１つの動作名とすることは容易である。しかしながら、イベントログの件数は膨大な量となるケースが多く、各項目を確認して不要な文字列の削除を実施することは、多くの作業時間を要する。
データクレンジング装置１００が分類した結果の動作名の文字列は、３８個であり、３２８個削減することができた。例えば、３００個超あった文字列「見積SYS-0003_0000 初期表示」で始まる動作名は、１つの動作名（クラスタ）にまとめられた。このように動作名（アクティビティ）を分類してまとめることで、適切なプロセスマイニングを行うことができるようになる。

【0047】

≪変形例：パラメータ調整≫
データクレンジング処理において、分類結果の評価がＮＧの場合に細分統合化部１１５は、分類処理のパラメータであるδを調整している（図７記載のステップＳ２１参照）。利用者の指示に基づいて、クラスタを細分化（図８記載のステップＳ３５参照）したり、統合（ステップＳ３８）したりしてもよい。例えば、３次元プロット図６１０（図９参照）やヒストグラム６２０（図１０参照）において利用者が指定したクラスタを細分化するようにしてもよい。また、利用者が指定した複数のクラスタを統合するようにしてもよい。クラスタを指定するには、例えば３次元プロット図６１０において凡例にあるクラスタを指定してもよいし、プロットされた低次元ベクトルを指定してもよいし、ヒストグラム６２０においてクラスタ名またはヒストグラム６２０の長方形を指定してもよい。

【0048】

≪その他の変形例≫
以上、本発明のいくつかの実施形態について説明したが、これらの実施形態は、例示に過ぎず、本発明の技術的範囲を限定するものではない。例えばデータクレンジング装置１００は、イベントログの動作名（アクティビティ）の文字列を分類しているが、イベントログの別の項目の文字列を分類するようにしてもよい。また文字列分類装置として、イベントログに含まれる文字列に限らず、一般の文字列を分類するようにしてもよい。

【0049】

本発明はその他の様々な実施形態を取ることが可能であり、さらに、本発明の要旨を逸脱しない範囲で、省略や置換等種々の変更を行うことができる。これら実施形態やその変形は、本明細書等に記載された発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

【符号の説明】

【0050】

１００データクレンジング装置（文字列分類装置）
１１１前処理部
１１２ベクトル化部
１１３次元圧縮部
１１４クラスタリング部
１１５細分統合化部
１１６表示制御部
１１７後処理部
５１０，５２０，５３０イベントログ

【図1】