特開2024-62515 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2024-62515情報処理プログラム、情報処理方法および情報処理装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024062515

(43)【公開日】2024-05-10

(54)【発明の名称】情報処理プログラム、情報処理方法および情報処理装置

(51)【国際特許分類】

G06F 8/36 20180101AFI20240501BHJP

G06F 8/77 20180101ALI20240501BHJP

G06F 16/906 20190101ALI20240501BHJP

【ＦＩ】

G06F8/36

G06F8/77

G06F16/906

【審査請求】未請求

【請求項の数】6

【出願形態】ＯＬ

(21)【出願番号】P 2022170390

(22)【出願日】2022-10-25

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002918

【氏名又は名称】弁理士法人扶桑国際特許事務所

(72)【発明者】

【氏名】溝渕裕司

【テーマコード（参考）】

5B175

5B376

【Ｆターム（参考）】

5B175FA03

5B175HB03

5B376BC13

5B376BC62

5B376BC80

5B376DA16

5B376DA20

(57)【要約】

【課題】サンプルプログラムからのソフトウェア部品の作成を効率化する。
【解決手段】コンピュータは、複数のサンプルプログラムを２以上のクラスタに分類した分類結果であって、クラスタ数が異なる複数のレベルの分類結果を示すクラスタデータと、複数のサンプルプログラムそれぞれの実行性能を示す性能データとを取得する。コンピュータは、複数のレベルそれぞれにおける２以上のクラスタそれぞれに対して、クラスタに属する２以上のサンプルプログラムの再利用性に関する指標値と、２以上のサンプルプログラムの実行性能とに基づいて、第１の評価値を算出し、レベルに対して、２以上のクラスタに対応する２以上の第１の評価値に基づいて第２の評価値を算出する。コンピュータは、複数のレベルに対応する複数の第２の評価値に基づいて、複数のレベルのうちの何れかのレベルの分類結果を選択する。
【選択図】図６

【特許請求の範囲】

【請求項1】

複数のサンプルプログラムを２以上のクラスタに分類した分類結果であって、クラスタ数が異なる複数のレベルの分類結果を示すクラスタデータと、前記複数のサンプルプログラムそれぞれの実行性能を示す性能データとを取得し、
前記複数のレベルそれぞれにおける前記２以上のクラスタそれぞれに対して、当該クラスタに属する２以上のサンプルプログラムの再利用性に関する指標値と、前記２以上のサンプルプログラムの前記実行性能とに基づいて、第１の評価値を算出し、当該レベルに対して、前記２以上のクラスタに対応する２以上の第１の評価値に基づいて第２の評価値を算出し、
前記複数のレベルに対応する複数の第２の評価値に基づいて、前記複数のレベルのうちの何れかのレベルの前記分類結果を選択する、
処理をコンピュータに実行させる情報処理プログラム。

【請求項2】

前記複数のレベルは、異なるクラスタを統合することを繰り返す階層的クラスタリングによって生成される複数の階層である、
請求項１記載の情報処理プログラム。

【請求項3】

前記複数のサンプルプログラムそれぞれの前記実行性能は、当該サンプルプログラムを用いて訓練される機械学習モデルの予測精度である、
請求項１記載の情報処理プログラム。

【請求項4】

前記２以上のクラスタそれぞれに対する前記第１の評価値は、当該クラスタのサンプルプログラム数を示す第１の指標値と、当該クラスタに属する前記２以上のサンプルプログラムの記述に関する特徴量の分散に応じた凝集度を示す第２の指標値と、当該クラスタの前記実行性能の平均を示す第３の指標値と、当該クラスタの前記実行性能の分散を示す第４の指標値とに基づいて算出される、
請求項１記載の情報処理プログラム。

【請求項5】

【請求項6】

複数のサンプルプログラムを２以上のクラスタに分類した分類結果であって、クラスタ数が異なる複数のレベルの分類結果を示すクラスタデータと、前記複数のサンプルプログラムそれぞれの実行性能を示す性能データとを記憶する記憶部と、
前記複数のレベルそれぞれにおける前記２以上のクラスタそれぞれに対して、当該クラスタに属する２以上のサンプルプログラムの再利用性に関する指標値と、前記２以上のサンプルプログラムの前記実行性能とに基づいて、第１の評価値を算出し、当該レベルに対して、前記２以上のクラスタに対応する２以上の第１の評価値に基づいて第２の評価値を算出し、前記複数のレベルに対応する複数の第２の評価値に基づいて、前記複数のレベルのうちの何れかのレベルの前記分類結果を選択する処理部と、
を有する情報処理装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は情報処理プログラム、情報処理方法および情報処理装置に関する。

【背景技術】

【0002】

情報処理装置は、再利用可能なプログラムをソフトウェア部品として保存しておくことがある。ソフトウェア開発の開発者は、保存されたソフトウェア部品を利用することでプログラミングを効率的に行うことができる。ソフトウェア部品は、様々な既存プログラムをサンプルプログラムとして収集し、収集されたサンプルプログラムを分析することによって作成されることがある。情報処理装置は、このようなサンプルプログラムからのソフトウェア部品の作成を支援することがある。

【0003】

例えば、複数のクラスを含むソースコードを分析して、他のクラスから比較的独立したクラス群をコンポーネントとして識別するコンポーネント識別方法が提案されている。提案のコンポーネント識別方法は、他のクラスの呼び出しの有無を示す特徴量を各クラスに対して付与し、特徴量に基づいてクラス間の類似度を定義する。コンポーネント識別方法は、１以上のクラスをそれぞれ含む複数のクラスタを、類似度に基づいて段階的に統合していく階層的クラスタリングを実行する。これにより、複数のクラスについてツリー型の階層構造を示す樹形図（デンドログラム）が生成される。

【先行技術文献】

【非特許文献】

【0004】

【非特許文献1】Jian Feng Cui and Heung Seok Chae, "Applying agglomerative hierarchical clustering algorithms to component identification for legacy systems", Information and Software Technology, Volume 53, Issue 6, pages 601-614, June 2011

【発明の概要】

【発明が解決しようとする課題】

【0005】

上記の非特許文献１に記載されたクラスタリング方法のように、情報処理装置は、サンプルプログラムの集合から、クラスタ数が異なる複数のレベルの分類結果を生成することがある。あるレベルの１つのクラスタから１つのソフトウェア部品が作成され得る。

【0006】

しかし、収集されるサンプルプログラムが多いと、クラスタ数が異なる多数のレベルの分類結果が生成され得る。例えば、階層的クラスタリングでは、階層の深い樹形図が生成される。この場合、何れのレベルのクラスタがソフトウェア部品に適しているかを人手で判断することは負担が大きい。そこで、１つの側面では、本発明は、サンプルプログラムからのソフトウェア部品の作成を効率化することを目的とする。

【課題を解決するための手段】

【0007】

１つの態様では、以下の処理をコンピュータに実行させる情報処理プログラムが提供される。複数のサンプルプログラムを２以上のクラスタに分類した分類結果であって、クラスタ数が異なる複数のレベルの分類結果を示すクラスタデータと、複数のサンプルプログラムそれぞれの実行性能を示す性能データとを取得する。複数のレベルそれぞれにおける２以上のクラスタそれぞれに対して、クラスタに属する２以上のサンプルプログラムの再利用性に関する指標値と、２以上のサンプルプログラムの実行性能とに基づいて、第１の評価値を算出し、レベルに対して、２以上のクラスタに対応する２以上の第１の評価値に基づいて第２の評価値を算出する。複数のレベルに対応する複数の第２の評価値に基づいて、複数のレベルのうちの何れかのレベルの分類結果を選択する。

【0008】

また、１つの態様では、コンピュータが実行する情報処理方法が提供される。また、１つの態様では、記憶部と処理部とを有する情報処理装置が提供される。

【発明の効果】

【0009】

１つの側面では、サンプルプログラムからのソフトウェア部品の作成が効率化される。

【図面の簡単な説明】

【0010】

【図1】第１の実施の形態の情報処理装置を説明するための図である。

【図2】第２の実施の形態の情報処理装置のハードウェア例を示す図である。

【図3】機械学習スクリプトとモデル精度の例を示す図である。

【図4】機械学習スクリプトの分割例を示す図である。

【図5】サンプルプログラムの特徴量の例を示す図である。

【図6】階層的クラスタリングとクラスタ評価値の例を示す図である。

【図7】クラスタサイズと凝集度のトレードオフの例を示す図である。

【図8】モデル精度の平均と分散のトレードオフの例を示す図である。

【図9】情報処理装置の機能例を示すブロック図である。

【図10】クラスタリングの手順例を示すフローチャートである。

【発明を実施するための形態】

【0011】

以下、本実施の形態を図面を参照して説明する。
［第１の実施の形態］
第１の実施の形態を説明する。

【0012】

図１は、第１の実施の形態の情報処理装置を説明するための図である。
第１の実施の形態の情報処理装置１０は、サンプルプログラムの集合から再利用可能なソフトウェア部品を作成することを支援する。ソフトウェア部品は、コード事例、コードパターン、プログラム部品、コードスニペット、プログラミングイディオムなどと呼ばれてもよい。情報処理装置１０は、クライアント装置でもよいしサーバ装置でもよい。情報処理装置１０が、コンピュータ、分析装置またはクラスタリング装置と呼ばれてもよい。

【0013】

情報処理装置１０は、記憶部１１および処理部１２を有する。記憶部１１は、ＲＡＭ（Random Access Memory）などの揮発性半導体メモリでもよいし、ＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの不揮発性ストレージでもよい。処理部１２は、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）などのプロセッサである。ただし、処理部１２が、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの電子回路を含んでもよい。プロセッサは、例えば、ＲＡＭなどのメモリ（記憶部１１でもよい）に記憶されたプログラムを実行する。プロセッサの集合が、マルチプロセッサまたは単に「プロセッサ」と呼ばれてもよい。

【0014】

記憶部１１は、クラスタデータ１３および性能データ１４を記憶する。クラスタデータ１３は、複数のサンプルプログラムを２以上のクラスタに分類した分類結果であって、クラスタ数が異なる複数のレベルの分類結果を示す。各サンプルプログラムは、既存プログラムの一部分または全体である。サンプルプログラムはソースコードでもよい。サンプルプログラムは、関数やクラスなど一定の機能をもつプログラム単位でもよいし、ソースコードの連続するｎ行（ｎ＝１，２，３，…）でもよい。サンプルプログラムは、機械学習モデルを訓練するための機械学習スクリプトでもよい。

【0015】

複数のサンプルプログラムに対するクラスタリングは、情報処理装置１０によって実行されてもよいし他の情報処理装置によって実行されてもよい。複数のサンプルプログラムは、特徴量が近いサンプルプログラムが同じクラスタに属し、特徴量が遠いサンプルプログラムが異なるクラスタに属するように、２以上のクラスタに分類される。特徴量は、サンプルプログラムに含まれる文字列から算出されてもよいし、実行時のメモリ状態などサンプルプログラムの実行状態から算出されてもよい。

【0016】

クラスタデータ１３は、階層的クラスタリングやｋ平均法などのクラスタリングアルゴリズムを用いて生成される。階層的クラスタリングの場合、まず複数のサンプルプログラムが互いに異なるクラスタに分類される。ある階層においてクラスタ間の距離が算出され、距離が最も小さいクラスタのペアが、１つ上の階層では１つのクラスタに統合される。クラスタの統合は、最終的にクラスタ数が１になるまで繰り返される。階層的クラスタリングで生成される複数の階層は、上記の複数のレベルに相当する。

【0017】

例えば、クラスタデータ１３は、サンプルプログラム＃１～＃６に対するレベルＬ１，Ｌ２の分類結果を含む。レベルＬ１の分類結果は、サンプルプログラム＃１，＃２を含むクラスタ１５ａ（Ｃ１）と、サンプルプログラム＃３，＃４を含むクラスタ１５ｂ（Ｃ２）と、サンプルプログラム＃５，＃６を含むクラスタ１５ｃ（Ｃ３）を示す。レベルＬ２の分類結果は、サンプルプログラム＃１～＃４を含むクラスタ１５ｄ（Ｃ４）と、サンプルプログラム＃５，＃６を含むクラスタ１５ｅ（Ｃ５）を示す。よって、レベルＬ１よりもレベルＬ２の方がクラスタ数が少ない。

【0018】

性能データ１４は、複数のサンプルプログラムそれぞれの実行性能を示す。実行性能は、各サンプルプログラムを実行することで測定されてもよい。実行性能は、情報処理装置１０によって測定されてもよいし他の情報処理装置によって測定されてもよい。サンプルプログラムが機械学習スクリプトである場合、実行性能は、例えば、その機械学習スクリプトによって訓練される機械学習モデルの予測精度である。その場合、実行性能は、例えば、０以上１以下の数値で表される。

【0019】

処理部１２は、クラスタデータ１３および性能データ１４に基づいて、クラスタデータ１３が示す複数のレベルのうちの何れかのレベルの分類結果を選択する。選択されたレベルに含まれる１つのクラスタから１つのソフトウェア部品が作成される。処理部１２は、適切なレベルを選択するため、以下のように複数のレベルを評価する。

【0020】

処理部１２は、複数のレベルそれぞれにおける２以上のクラスタそれぞれに対して、第１の評価値を算出する。第１の評価値はクラスタ評価値と呼ばれてもよい。例えば、第１の評価値が高いクラスタほど、部品化に好適であることを示す。

【0021】

処理部１２は、クラスタに含まれる２以上のサンプルプログラムの特徴量の分散に応じた凝集度を用いて、第１の評価値を算出する。クラスタ内での特徴量の分散が小さいほど凝集度が高くなる。他のクラスタとの距離が大きいほど凝集度が高くなってもよい。凝集度の指標として、Calinski-Harabasz指標またはDavies-Bouldin指標が用いられてもよい。例えば、凝集度が高いほど第１の評価値が高くなる。

【0022】

また、処理部１２は、クラスタに含まれる２以上のサンプルプログラムの実行性能を更に用いて、第１の評価値を算出する。例えば、処理部１２は、クラスタ内での実行性能の平均および分散を用いて第１の評価値を算出する。例えば、実行性能の平均が高いほど第１の評価値が高くなり、実行性能の分散が小さいほど第１の評価値が高くなる。

【0023】

また、処理部１２は、クラスタに含まれるサンプルプログラムの個数であるクラスタサイズを更に用いて、第１の評価値を算出してもよい。第１の評価値は、クラスタサイズを示す第１の指標値と、凝集度を示す第２の指標値と、実行性能の平均を示す第３の指標値と、実行性能の分散を示す第４の指標値とから算出されてもよい。第１の評価値は、第１の指標値と第２の指標値と第３の指標値と第４の指標値の逆数との積であってもよい。

【0024】

処理部１２は、複数のレベルそれぞれに対して、当該レベルの２以上のクラスタに対応する２以上の第１の評価値に基づいて、第２の評価値を算出する。第２の評価値は、レベル評価値または階層評価値と呼ばれてもよい。例えば、処理部１２は、２以上の第１の評価値の合計を第２の評価値として算出する。例えば、処理部１２は、クラスタ１５ａ，１５ｂ，１５ｃに対応する評価値１６ａ，１６ｂ，１６ｃを算出し、評価値１６ａ，１６ｂ，１６ｃを合成して、レベルＬ１に対する評価値１７ａを算出する。また、処理部１２は、クラスタ１５ｄ，１５ｅに対応する評価値１６ｄ，１６ｅを算出し、評価値１６ｄ，１６ｅを合成して、レベルＬ２に対する評価値１７ｂを算出する。

【0025】

処理部１２は、複数のレベルに対応する複数の第２の評価値に基づいて、部品化に好適なレベルを選択する。例えば、処理部１２は、複数のレベルの間で第２の評価値を比較し、最も高い第２の評価値をもつレベルを選択する。例えば、評価値１７ａよりも評価値１７ｂの方が高い場合、レベルＬ２の分類結果が選択され得る。この場合、クラスタ１５ｄ，１５ｅから１つずつソフトウェア部品が作成され得る。

【0026】

処理部１２は、選択したレベルの分類結果を出力する。処理部１２は、選択したレベルの分類結果を不揮発性ストレージに保存してもよいし、表示装置に表示してもよいし、他の情報処理装置に送信してもよい。また、処理部１２は、選択したレベルに含まれるクラスタからソフトウェア部品を作成するようユーザに促してもよい。ユーザは、クラスタに含まれる２以上のサンプルプログラムから共通のプログラムパターンを判定してもよく、判定したプログラムパターンを示すソフトウェア部品を作成してもよい。

【0027】

また、処理部１２は、ソフトウェア部品の候補として、クラスタに含まれる１つまたは少数のサンプルプログラムをユーザに提示してもよい。提示されるサンプルプログラムは、クラスタの中で平均に近い特徴量をもつ中心のサンプルプログラムでもよい。また、処理部１２は、クラスタに含まれる２以上のサンプルプログラムを何らかの基準でランク付けし、ランキング情報をユーザに対して提示してもよい。

【0028】

以上説明したように、第１の実施の形態の情報処理装置１０は、サンプルプログラムについてクラスタ数が異なる複数のレベルの分類結果を示すクラスタデータ１３と、サンプルプログラムの実行性能を示す性能データ１４とを取得する。情報処理装置１０は、各クラスタに対して、サンプルプログラムの特徴量の分散に応じた凝集度とサンプルプログラムの実行性能とに基づいて、第１の評価値を算出する。情報処理装置１０は、各レベルに対して、第１の評価値に基づいて第２の評価値を算出する。そして、情報処理装置１０は、第２の評価値に基づいて、何れかのレベルの分類結果を選択する。

【0029】

これにより、クラスタ数が異なる様々な分類結果の中から、ソフトウェア部品の作成に好適なクラスタを含む分類結果が特定される。例えば、階層的クラスタリングの結果の中から、好適なクラスタを含む階層が特定される。よって、多数のサンプルプログラムが収集された場合であっても、ソフトウェア部品の作成が効率化される。

【0030】

また、第１の評価値の算出に用いられる情報のうち、凝集度は、類似するプログラムパターンが高頻度で出現するという再利用性に関連する。また、実行性能は、ソフトウェア部品がソフトウェアの品質改善に寄与するという有用性に関連する。よって、第１の評価値が高いクラスタから作成されるソフトウェア部品は、高い再利用性および有用性をもつことが期待される。その結果、ソフトウェア部品の品質が向上する。

【0031】

なお、複数のレベルは、階層的クラスタリングによって生成される複数の階層であってもよい。これにより、深い階層をもつ樹形図の中から適切な階層が選択され、人手で適切な階層を探す場合と比べて部品化作業の負担が軽減される。

【0032】

また、実行性能は、サンプルプログラムを用いて訓練される機械学習モデルの予測精度であってもよい。これにより、機械学習スクリプトのプログラミングにとって有用なソフトウェア部品が作成されるものと期待される。ここで、既存の機械学習スクリプトは、オブジェクト指向言語で記述された業務システムプログラムなどと異なり、機能に基づく構造化が行われていないことが多い。また、既存の機械学習スクリプトは、アプリケーション分野を示すドメインで区別することが難しいことが多い。そのため、雑多な機械学習スクリプトが収集されることがあり、多数の機械学習スクリプトから、クラスタ数の異なる多数のレベルの分類結果が生成され得る。これに対し、情報処理装置１０は、適切なレベルの分類結果を選択することができる。

【0033】

また、各クラスタに対する第１の評価値は、クラスタサイズを示す第１の指標値と、凝集度を示す第２の指標値と、実行性能の平均を示す第３の指標値と、実行性能の分散を示す第４の指標値とに基づいて算出されてもよい。クラスタサイズは、ソフトウェア部品の再利用性と関連する。クラスタサイズと凝集度を用いることで、適度に分割されたクラスタについて第１の評価値が高くなる。また、実行性能の平均および分散を用いることで、実行性能が平均的に高くかつばらつきが小さいクラスタについて第１の評価値が高くなる。よって、ソフトウェア部品の観点からクラスタの良否が適切に判断される。

【0034】

［第２の実施の形態］
次に、第２の実施の形態を説明する。
第２の実施の形態の情報処理装置１００は、既存の機械学習スクリプトを収集して分析し、再利用可能かつ有用なソフトウェア部品の作成を支援する。情報処理装置１００は、クライアント装置でもよいしサーバ装置でもよい。情報処理装置１００が、コンピュータ、分析装置またはクラスタリング装置と呼ばれてもよい。情報処理装置１００は、第１の実施の形態の情報処理装置１０に対応する。

【0035】

図２は、第２の実施の形態の情報処理装置のハードウェア例を示す図である。
情報処理装置１００は、バスに接続されたＣＰＵ１０１、ＲＡＭ１０２、ＨＤＤ１０３、ＧＰＵ１０４、入力インタフェース１０５、媒体リーダ１０６および通信インタフェース１０７を有する。ＣＰＵ１０１は、第１の実施の形態の処理部１２に対応する。ＲＡＭ１０２またはＨＤＤ１０３は、第１の実施の形態の記憶部１１に対応する。

【0036】

ＣＰＵ１０１は、プログラムの命令を実行するプロセッサである。ＣＰＵ１０１は、ＨＤＤ１０３に記憶されたプログラムおよびデータをＲＡＭ１０２にロードし、プログラムを実行する。情報処理装置１００は、複数のプロセッサを有してもよい。

【0037】

ＲＡＭ１０２は、ＣＰＵ１０１で実行されるプログラムおよびＣＰＵ１０１で演算に使用されるデータを一時的に記憶する揮発性半導体メモリである。情報処理装置１００は、ＲＡＭ以外の種類の揮発性メモリを有してもよい。

【0038】

ＨＤＤ１０３は、オペレーティングシステム（ＯＳ：Operating System）やミドルウェアやアプリケーションソフトウェアなどのソフトウェアのプログラムと、データとを記憶する不揮発性ストレージである。情報処理装置１００は、フラッシュメモリやＳＳＤ（Solid State Drive）などの他の種類の不揮発性ストレージを有してもよい。

【0039】

ＧＰＵ１０４は、ＣＰＵ１０１と連携して画像処理を行い、情報処理装置１００に接続された表示装置１１１に画像を出力する。表示装置１１１は、例えば、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイまたはプロジェクタである。情報処理装置１００に、プリンタなどの他の種類の出力デバイスが接続されてもよい。また、ＧＰＵ１０４は、ＧＰＧＰＵ（General Purpose Computing on Graphics Processing Unit）として使用されてもよい。ＧＰＵ１０４は、ＣＰＵ１０１からの指示に応じてプログラムを実行し得る。情報処理装置１００は、ＲＡＭ１０２以外の揮発性半導体メモリをＧＰＵメモリとして有してもよい。

【0040】

入力インタフェース１０５は、情報処理装置１００に接続された入力デバイス１１２から入力信号を受け付ける。入力デバイス１１２は、例えば、マウス、タッチパネルまたはキーボードである。情報処理装置１００に複数の入力デバイスが接続されてもよい。

【0041】

媒体リーダ１０６は、記録媒体１１３に記録されたプログラムおよびデータを読み取る読み取り装置である。記録媒体１１３は、例えば、磁気ディスク、光ディスクまたは半導体メモリである。磁気ディスクには、フレキシブルディスク（ＦＤ：Flexible Disk）およびＨＤＤが含まれる。光ディスクには、ＣＤ（Compact Disc）およびＤＶＤ（Digital Versatile Disc）が含まれる。媒体リーダ１０６は、記録媒体１１３から読み取られたプログラムおよびデータを、ＲＡＭ１０２やＨＤＤ１０３などの他の記録媒体にコピーする。読み取られたプログラムは、ＣＰＵ１０１によって実行されることがある。

【0042】

記録媒体１１３は、可搬型記録媒体であってもよい。記録媒体１１３は、プログラムおよびデータの配布に用いられることがある。また、記録媒体１１３およびＨＤＤ１０３が、コンピュータ読み取り可能な記録媒体と呼ばれてもよい。

【0043】

通信インタフェース１０７は、ネットワーク１１４を介して他の情報処理装置と通信する。通信インタフェース１０７は、スイッチやルータなどの有線通信装置に接続される有線通信インタフェースでもよいし、基地局やアクセスポイントなどの無線通信装置に接続される無線通信インタフェースでもよい。

【0044】

次に、分析対象となるサンプルプログラム群について説明する。
図３は、機械学習スクリプトとモデル精度の例を示す図である。
情報処理装置１００は、機械学習スクリプト１３１，１３２を含む複数の機械学習スクリプトを記憶する。機械学習スクリプトは、機械学習の手順を規定したソースコードである。機械学習は、訓練データを用いて機械学習モデルを訓練し、テストデータを用いて機械学習モデルのモデル精度を測定することを含む。

【0045】

機械学習スクリプトは、クラスやメソッドを含む機械学習ライブラリを利用することがある。機械学習モデルは、例えば、ランダムフォレスト、サポートベクタマシン、ニューラルネットワークなどである。モデル精度は、例えば、正答率（Accuracy）である。正答率は、０以上１以下の数値であり、高いほど機械学習モデルが良好であることを示す。

【0046】

訓練データおよびテストデータは、例えば、ＣＳＶ（Comma Separated Value）などのテーブルデータである。テーブルデータは、複数のカラムおよび複数のレコードを含む。複数のカラムのうちの一部のカラムが説明変数として使用され、他のカラムが目的変数として使用される。説明変数の値は、機械学習モデルに入力される入力データである。目的変数の値は、機械学習モデルの出力に対する正解を示す教師ラベルである。機械学習スクリプトは、テーブルデータに対して前処理を実行することがある。前処理は、例えば、テーブルデータの中の特定のカラムの値を一定範囲の数値に変換する正規化を含む。

【0047】

機械学習スクリプト１３１は、空行を除いて１４行のコードを含む。コードは、命令または命令文と呼ばれてもよい。機械学習スクリプト１３１は、訓練データテーブルに対して前処理を行い、訓練データテーブルの中から説明変数を示すカラムおよび目的変数を示すカラムを指定し、機械学習モデルとしてランダムフォレストを訓練する。機械学習スクリプト１３１は、テストデータテーブルの中から説明変数を示すカラムおよび目的変数を示すカラムを指定し、ランダムフォレストに説明変数の値を入力して予測値を算出し、予測値と教師ラベルとを比較してモデル精度として正答率を算出する。

【0048】

機械学習スクリプト１３２は、空行を除いて１２行のコードを含む。機械学習スクリプト１３２は、機械学習スクリプト１３１の４行目および５行目に相当する前処理のコードを含まない。その他の点は機械学習スクリプト１３１と同じである。

【0049】

情報処理装置１００は、機械学習スクリプトと対応付けて、当該機械学習スクリプトで使用される訓練データおよびテストデータを記憶する。情報処理装置１００は、記憶された訓練データおよびテストデータを用いて機械学習スクリプトを実行することで、当該機械学習スクリプトによって訓練された機械学習モデルのモデル精度を測定する。情報処理装置１００は、測定されたモデル精度を、機械学習スクリプトと対応付けて記憶する。ただし、他の情報処理装置がモデル精度を測定してもよい。

【0050】

例えば、情報処理装置１００は、機械学習スクリプト１３１を実行することでモデル精度１３３を測定する。また、情報処理装置１００は、機械学習スクリプト１３２を実行することでモデル精度１３４を測定する。なお、後述するように、情報処理装置１００は、実行時のメモリ状態に基づいてサンプルプログラムの特徴量を規定してもよい。その場合、情報処理装置１００は、機械学習スクリプトの実行時に、１ステップ毎（例えば、１行毎）に、メモリイメージを実行履歴として保存しておく。

【0051】

図４は、機械学習スクリプトの分割例を示す図である。
情報処理装置１００は、複数の機械学習スクリプトそれぞれを分割することで、再利用可能なソフトウェア部品の候補である複数のサンプルプログラムを抽出する。機械学習スクリプトは、大規模な業務システムプログラムと異なり、十分に構造化されていないことが多い。このため、情報処理装置１００は、クラスや関数のように機能的まとまりを示すプログラム単位を機械学習スクリプトの中から識別することが難しい。そこで、情報処理装置１００は、機械学習スクリプトに含まれる連続するｎ行（ｎ＝１，２，３，…）のコードを、サンプルプログラムとして網羅的に抽出する。

【0052】

例えば、情報処理装置１００は、機械学習スクリプト１３１から、１行目のコードを示すサンプルプログラム１４１と、２行目のコードを示すサンプルプログラム１４２と、３行目のコードを示すサンプルプログラム１４３とを抽出する。このように、情報処理装置１００は、１行のコードをそれぞれ示す１４個のサンプルプログラムを抽出する。

【0053】

また、情報処理装置１００は、１～２行目のコードを示すサンプルプログラム１４４と、２～３行目のコードを示すサンプルプログラム１４５と、３～４行目のコードを示すサンプルプログラム１４６とを抽出する。このように、情報処理装置１００は、連続する２行のコードをそれぞれ示す１３個のサンプルプログラムを抽出する。また、情報処理装置１００は、１～３行目のコードを示すサンプルプログラム１４７と、２～４行目のコードを示すサンプルプログラム１４８と、３～５行目のコードを示すサンプルプログラム１４９とを抽出する。このように、情報処理装置１００は、連続する３行のコードをそれぞれ示す１２個のサンプルプログラムを抽出する。

【0054】

１つのサンプルプログラムに含まれ得る行数については、事前に上限が決められていてもよいし、上限が存在しなくてもよい。情報処理装置１００は、機械学習スクリプト１３２からも、機械学習スクリプト１３１と同様に複数のサンプルプログラムを抽出する。情報処理装置１００は、抽出された各サンプルプログラムに対して、元の機械学習スクリプトから測定されたモデル精度を付与する。例えば、情報処理装置１００は、サンプルプログラム１４１～１４９に、機械学習スクリプト１３１のモデル精度１３３を付与する。

【0055】

なお、基準となる機械学習スクリプトが存在する場合、情報処理装置１００は、基準の機械学習スクリプトと他の機械学習スクリプトとの差分をサンプルとして抽出してもよい。例えば、機械学習スクリプト１３２を基準とすると、情報処理装置１００は、機械学習スクリプト１３１から４～５行目のコードをサンプルプログラムとして抽出する。差分を抽出することで、モデル精度の向上に寄与するコードが識別されやすくなる。

【0056】

この場合、情報処理装置１００は、抽出された差分のサンプルプログラムに対して、基準の機械学習スクリプトのモデル精度との差を示す相対モデル精度を付与してもよい。相対モデル精度は負数であることもある。例えば、情報処理装置１００は、機械学習スクリプト１３１の４～５行目に対し、＋０．１という相対モデル精度を付与する。

【0057】

図５は、サンプルプログラムの特徴量の例を示す図である。
情報処理装置１００は、サンプルプログラム間の類似度を示す「距離」を規定するため、各サンプルプログラムの特徴量を算出する。特徴量は、２以上の次元に対応する２以上の数値を列挙したベクトルである。以降の第２の実施の形態の説明では、サンプルプログラムに含まれる文字列自体から特徴量を算出する場合を想定する。ただし、後述するように、情報処理装置１００は、他の方法によって特徴量を算出してもよい。

【0058】

情報処理装置１００は、複数のサンプルプログラムそれぞれから１以上のトークンを抽出する。トークンは、変数名や関数名のようにプログラミング言語上で意味をもつ文字列であり、単語と呼ばれてもよい。情報処理装置１００は、例えば、空白やドットやカンマなどの区切り文字を検出して、サンプルプログラムをトークンに分割する。

【0059】

ただし、サンプルプログラム間の類似度を判断する上で、ユーザ定義の変数名の重要度は低い。ユーザ定義の変数名が異なっても、２つのサンプルプログラムが実質的に同じデータ処理を実行していることがあるためである。そこで、情報処理装置１００は、ライブラリ名、ライブラリに含まれるクラスのクラス名、ライブラリに含まれるメソッドのメソッド名など、既知の名称のみをトークンとして抽出してもよい。

【0060】

情報処理装置１００は、複数のサンプルプログラムの中に１回以上出現するトークンを列挙したトークンセット１５１を生成する。情報処理装置１００は、トークンセット１５１を参照して、サンプルプログラム毎に１つの特徴量を算出する。特徴量は、トークンベクトルと呼ばれてもよく、トークンセット１５１と同じ次元数をもつ。サンプルプログラムに１回以上出現するトークンに対応する次元の値が「１」であり、サンプルプログラムに１回も出現しないトークンに対応する次元の値が「０」である。

【0061】

例えば、トークンセット１５１の第１次元はトークン「ｐｄ」を示し、第２次元はトークン「ｒｅａｄ＿ｃｓｖ」を示し、第３次元はトークン「ｄｆ」を示し、第４次元はトークン「ｒｅｐｌａｃｅ」を示す。情報処理装置１００は、サンプルプログラム１５２から特徴量１５４を生成し、サンプルプログラム１５３から特徴量１５５を算出する。

【0062】

サンプルプログラム１５２は、トークン「ｐｄ」、「ｒｅａｄ＿ｃｓｖ」および「ｄｆ」を含み、トークン「ｒｅｐｌａｃｅ」を含まない。よって、特徴量１５４の第１～３次元の値は「１」であり、特徴量１５４の第４次元の値は「０」である。サンプルプログラム１５３は、トークン「ｐｄ」および「ｒｅａｄ＿ｃｓｖ」を含まず、トークン「ｄｆ」および「ｒｅｐｌａｃｅ」を含む。よって、特徴量１５５の第１～２次元の値は「０」であり、特徴量１５５の第３～４次元の値は「１」である。

【0063】

なお、情報処理装置１００は、機械学習スクリプトの実行履歴から特徴量を算出してもよい。例えば、情報処理装置１００は、サンプルプログラムの始点または終点において保存されたメモリイメージから、その時点のテーブルデータを抽出する。情報処理装置１００は、テーブルデータに含まれる各カラムの平均値、最大値、最小値などの統計量を特徴量として算出してもよい。サンプルプログラムによって異なる構造のテーブルデータが使用される場合や、テーブルデータに対して前処理が行われる場合、テーブルデータの統計量は、サンプルプログラムの特徴を示す有用な特徴量となり得る。

【0064】

図６は、階層的クラスタリングとクラスタ評価値の例を示す図である。
情報処理装置１００は、上記で算出された特徴量を用いて、上記で抽出された複数のサンプルプログラムに対して階層的クラスタリングを行う。階層的クラスタリングでは、情報処理装置１００は、まずサンプルプログラムと同数のクラスタを生成し、複数のサンプルプログラムを互いに異なるクラスタに分類する。情報処理装置１００は、クラスタに属するサンプルプログラムの特徴量に基づいてクラスタ間距離を算出し、クラスタ間距離が最小であるクラスタのペアを１つのクラスタに統合する。情報処理装置１００は、クラスタ間距離の算出とクラスタのペアの統合とを、クラスタ数が１になるまで繰り返す。

【0065】

２つのサンプルプログラムの間の距離は、例えば、２つの特徴量の間のユークリッド距離である。クラスタ間距離は、例えば、異なるクラスタに属するサンプルプログラムの間の距離のうちの最小値または最大値である。最小値を用いる方法は最短距離法と呼ばれることがあり、最大値を用いる方法は最長距離法と呼ばれることがある。また、異なるクラスタに属するサンプルプログラムの間の距離の平均値が用いられてもよい。

【0066】

これにより、図６に示すような樹形図が生成される。樹形図は、全てのサンプルプログラムを含む１つのクラスタを示すルートノードと、互いに異なるクラスタに属する複数のサンプルプログラムを示す葉ノードとを含む。樹形図では、階層的クラスタリングの進行度を示す階層ｔが規定される。葉ノードの階層ではｔ＝０であり、ルートノードの階層ではｔ＝１である。階層ｔは、０以上１以下の数値をとる。

【0067】

樹形図から１つの階層を選択すると、選択された階層において形成されている１以上のクラスタが特定される。通常、ｔ＝０，ｔ＝１以外の階層が選択される。ユーザは、特定された１つのクラスタから１つのソフトウェア部品を作成する。同一のクラスタに属する２以上のサンプルプログラムは、共通する特徴をもつことが期待される。そこで、例えば、ユーザは、それら２以上のサンプルプログラムから共通する特徴のコードを抽出し、再利用可能な形式に書き換えることでソフトウェア部品を作成する。

【0068】

例えば、ｔ＝０．８の階層では、複数のサンプルプログラムがクラスタ１６１，１６２，１６３に分類されている。ユーザは、クラスタ１６１から１つのソフトウェア部品を作成する。また、ユーザは、クラスタ１６２から１つのソフトウェア部品を作成する。また、ユーザは、クラスタ１６３から１つのソフトウェア部品を作成する。なお、ソフトウェア部品は再利用可能なプログラムであり、コード事例、コードパターン、プログラム部品、コードスニペットまたはプログラミングイディオムと呼ばれてもよい。

【0069】

しかし、前述した機械学習スクリプトの性質上、機械学習スクリプトからはソフトウェア部品の候補となる多数のサンプルプログラムが抽出される。多数のサンプルプログラムに対して階層的クラスタリングを行うと、階層の深い樹形図が生成される。そのため、ソフトウェア部品に適した階層をユーザが樹形図から選択することが難しいことがある。そこで、情報処理装置１００は、複数の階層それぞれに対して、ソフトウェア部品に適しているか否かを示す階層評価値を算出し、階層評価値に基づいて適切な階層を選択する。

【0070】

階層ｔの階層評価値Ｐ_ｔは、数式（１）のように算出される。階層評価値Ｐ_ｔは、階層ｔで形成されたクラスタＣ_ｔ，ｉ（ｉ＝１，２，３，…）に対して算出されるクラスタ評価値Ｐ_ｔ，ｉの合計である。クラスタ評価値Ｐ_ｔ，ｉは、下記の第１項から第４項の積である。

【0071】

【数1】

【0072】

第１項は、クラスタに含まれるサンプルプログラムの個数を示すクラスタサイズである。数式（１）において、｜Ｃ_ｔ，ｉ｜はクラスタＣ_ｔ，ｉのクラスタサイズを表す。クラスタサイズは、ソフトウェア部品の再利用性と関連する。類似するコードが頻繁に出現することは、ソフトウェア部品の再利用性が高いことを示す。そこで、クラスタサイズが大きいほどクラスタ評価値Ｐ_ｔ，ｉが大きくなる。

【0073】

第２項は、クラスタに含まれる２以上のサンプルプログラムの凝集度である。数式（１）において、１／Ｄ_ｔ，ｉはクラスタＣ_ｔ，ｉの凝集度を表す。クラスタ内でのサンプルプログラム相互の距離が小さいほど凝集度が高く、他のクラスタに属するサンプルプログラムとの距離が大きいほど凝集度が高くなる。凝集度の計算に使用する特徴量と階層的クラスタリングに使用する特徴量とは、同じでもよいし異なってもよい。凝集度は、ソフトウェア部品の再利用性と関連する。凝集度が高いクラスタは、他のクラスタとは異なる特有のコードの特徴を表す。そこで、凝集度が高いほどクラスタ評価値Ｐ_ｔ，ｉが大きくなる。

【0074】

凝集度には、例えば、Calinski-Harabasz指標またはDavies-Bouldin指標が利用される。Calinski-Harabasz指標は、クラスタ内の特徴量の分散に反比例し、クラスタ間の特徴量の分散に比例する。クラスタ間の特徴量の分散は、全サンプルプログラムの特徴量の中心と複数のクラスタそれぞれの特徴量の中心との間の距離についての分散である。特徴量の中心は、例えば、特徴量の平均値である。

【0075】

Davies-Bouldin指標は、クラスタ内の特徴量の分散と、最も類似する相手クラスタ内の特徴量の分散との和を、クラスタ間距離で割ったものである。相手クラスタは、クラスタ間距離が最も小さい他のクラスタである。このクラスタ間距離は、一方のクラスタの特徴量の中心と他方のクラスタの特徴量の中心との間の距離である。

【0076】

なお、凝集度は、クラスタ毎に算出されてもよいし、同一の階層にある複数のクラスタ全体にとって共通に算出されてもよい。全クラスタ共通のCalinski-Harabasz指標は、複数のクラスタのクラスタ内分散の平均値を用いて算出される。全クラスタ共通のDavies-Bouldin指標は、個々のクラスタのDavies-Bouldin指標の平均値である。

【0077】

Calinski-Harabasz指標は、下記の非特許文献に記載されている。T. Calinski and J. Harabasz, "A Dendrite Method for Cluster Analysis", Communications in Statistics, Volume 3, Issue 1, pages 1-27, January 1974。Davies-Bouldin指標は、下記の非特許文献に記載されている。David Davies and Donald Bouldin, "A Cluster Separation Measure", IEEE Transactions on Pattern Analysis and Machine Intelligence, Volume 1, Issue 2, pages 224-227, April 1979。

【0078】

第３項は、クラスタに含まれるサンプルプログラムのモデル精度の平均である。数式（１）において、ｕ_ｔ，ｉはクラスタＣ_ｔ，ｉに含まれるサンプルプログラムのモデル精度を表す。平均モデル精度は、ソフトウェア部品の有用性と関連する。ソフトウェア部品を用いて訓練される機械学習モデルのモデル精度が高いことは、ソフトウェア部品の有用性が高いことを示す。そこで、平均モデル精度が高いほどクラスタ評価値Ｐ_ｔ，ｉが大きくなる。

【0079】

第４項は、クラスタに含まれるサンプルプログラムのモデル精度の分散の逆数である。数式（１）において、βは分散がゼロになることを回避するための微小な定数である。例えば、β＝０．０１である。モデル精度の分散の逆数は、ソフトウェア部品の有用性と関連する。ソフトウェア部品を用いて訓練される機械学習モデルのモデル精度が不安定であることは、ソフトウェア部品が十分に細分化されていないことを示す。そこで、モデル精度の分散が小さいほどクラスタ評価値Ｐ_ｔ，ｉが大きくなる。

【0080】

例えば、前述のクラスタ１６１について、クラスタサイズが１００、凝集度が１３、平均モデル精度が０．７、モデル精度の分散が１．２５と算出される。この場合、クラスタ１６１のクラスタ評価値は７２８である。また、クラスタ１６２について、クラスタサイズが１５０、凝集度が８、平均モデル精度が０．５５、モデル精度の分散が１．０と算出される。この場合、クラスタ１６２のクラスタ評価値は６６０である。また、クラスタ１６３について、クラスタサイズが１、凝集度が１、平均モデル精度が０．９２、モデル精度の分散が０．０１と算出される。この場合、クラスタ１６３のクラスタ評価値は９２である。よって、ｔ＝０．８の階層の階層評価値は１４８０である。

【0081】

図７は、クラスタサイズと凝集度のトレードオフの例を示す図である。
ここでは、ソフトウェア部品の再利用性に関して、クラスタサイズと凝集度との間のトレードオフについて説明する。クラスタ１６４は、全てのサンプルプログラムを包含する。クラスタ１６４のクラスタサイズは大きい。一方、クラスタ１６４は広い特徴量の分布をもち、クラスタ１６４の凝集度は低い。よって、クラスタ１６４について、クラスタサイズを示す第１項と凝集度を示す第２項との積である再利用度は小さくなる。

【0082】

クラスタ１６５，１６６は、同一階層に現れるクラスタである。クラスタ１６５，１６６は、中程度のクラスタサイズをもつ。また、クラスタ１６５，１６６は、中程度の凝集度をもつ。よって、クラスタ１６５，１６６の再利用度は大きくなる。ｔ＝０の階層では、各サンプルプログラムが１つの原始クラスタを形成する。原始クラスタのクラスタサイズは小さい。一方、原始クラスタは最小のクラスタ内分散をもつため、原始クラスタの凝集度は高い。よって、原始クラスタの再利用度は小さくなる。このように、サンプルプログラム群を適度に分割することで、クラスタサイズと凝集度の積が大きくなる。

【0083】

図８は、モデル精度の平均と分散のトレードオフの例を示す図である。
ここでは、ソフトウェア部品の有用性に関して、モデル精度の平均と分散との間のトレードオフについて説明する。クラスタ１６７は、５個のサンプルプログラムを含む。４個のサンプルプログラムのモデル精度が１．０であり、１個のサンプルプログラムのモデル精度が０．５である。クラスタ１６７のモデル精度の平均は０．９、分散は０．０４２である。よって、クラスタ１６７について、平均モデル精度を示す第３項とモデル精度の分散の逆数を示す第４項との積である有用度は２１である。

【0084】

クラスタ１６８，１６９は、同一階層に現れるクラスタである。クラスタ１６８は、モデル精度が１．０である４個のサンプルプログラムを含む。クラスタ１６９は、モデル精度が０．５である１個のサンプルプログラムを含む。クラスタ１６８のモデル精度の平均は１．０、分散は０．００２５である。よって、クラスタ１６８の有用度は４００である。クラスタ１６９のモデル精度の平均は０．５、分散は０．０１である。よって、クラスタ１６９の有用度は５０である。このように、モデル精度の近いサンプルプログラム同士が集まった方が、モデル精度の平均と分散の逆数との積の合計が大きくなる。

【0085】

次に、情報処理装置１００の機能および処理手順について説明する。
図９は、情報処理装置の機能例を示すブロック図である。
情報処理装置１００は、スクリプト記憶部１２１、スクリプト実行部１２２、スクリプト分割部１２３、特徴量算出部１２４、クラスタリング部１２５およびクラスタ評価部１２６を有する。スクリプト記憶部１２１は、例えば、ＲＡＭ１０２またはＨＤＤ１０３を用いて実装される。スクリプト実行部１２２、スクリプト分割部１２３、特徴量算出部１２４、クラスタリング部１２５およびクラスタ評価部１２６は、例えば、ＣＰＵ１０１またはＧＰＵ１０４とプログラムとを用いて実装される。

【0086】

スクリプト記憶部１２１は、収集された既存の機械学習スクリプトを記憶する。また、スクリプト記憶部１２１は、機械学習スクリプトを実行するための訓練データおよびテストデータを記憶する。また、スクリプト記憶部１２１は、機械学習スクリプトに対応するモデル精度を記憶する。モデル精度は、スクリプト実行部１２２によって測定される。

【0087】

スクリプト実行部１２２は、スクリプト記憶部１２１に記憶された機械学習スクリプトを、訓練データおよびテストデータを用いて実行する。機械学習スクリプトの実行には、ＧＰＵ１０４が使用されてもよい。スクリプト実行部１２２は、機械学習スクリプトによって測定されたモデル精度をスクリプト記憶部１２１に保存する。

【0088】

なお、モデル精度を測定するコードが機械学習スクリプトに含まれていない場合、スクリプト実行部１２２は、訓練された機械学習モデルのモデル精度を機械学習スクリプトの外部で測定してもよい。また、サンプルプログラムの特徴量がメモリ状態から算出される場合、スクリプト実行部１２２は、機械学習スクリプトの実行中、ステップ毎にメモリイメージをスクリプト記憶部１２１に保存する。

【0089】

スクリプト分割部１２３は、スクリプト記憶部１２１に記憶された機械学習スクリプトを複数のサンプルプログラムに分割する。例えば、スクリプト分割部１２３は、機械学習スクリプトに含まれる連続するｎ行（ｎ＝１，２，３，…）のコードを、サンプルプログラムとして抽出する。ここで生成されるサンプルプログラムの集合には、異なる機械学習スクリプトから抽出されたサンプルプログラムが混在していてよい。スクリプト分割部１２３は、サンプルプログラムに対し、元の機械学習スクリプトのモデル精度を付与する。

【0090】

特徴量算出部１２４は、スクリプト分割部１２３で抽出されたサンプルプログラムの特徴量を算出する。例えば、特徴量算出部１２４は、サンプルプログラムからトークンを抽出し、トークンの出現の有無を示すトークンベクトルを特徴量として算出する。

【0091】

クラスタリング部１２５は、特徴量算出部１２４で算出された特徴量に基づいて、スクリプト分割部１２３で抽出された複数のサンプルプログラムに対して階層的クラスタリングを実行する。これにより、クラスタ数が異なる複数の階層それぞれにおけるサンプルプログラムの分類結果を示す樹形図（デンドログラム）が生成される。

【0092】

クラスタ評価部１２６は、クラスタリング部１２５による階層的クラスタリングの結果と各サンプルプログラムに付与されたモデル精度とから、前述の数式（１）に従って各クラスタのクラスタ評価値を算出する。クラスタ評価部１２６は、複数の階層それぞれに対して、その階層にあるクラスタのクラスタ評価値を合計した階層評価値を算出する。クラスタ評価部１２６は、階層評価値が最も大きい階層を選択する。

【0093】

クラスタ評価部１２６は、選択した階層のクラスタリング結果を不揮発性ストレージに保存してもよいし、表示装置１１１に表示してもよいし、他の情報処理装置に送信してもよい。また、クラスタ評価部１２６は、選択した階層のクラスタからソフトウェア部品を作成するようユーザに促してもよい。また、クラスタ評価部１２６は、選択した階層のクラスタ毎に、サンプルプログラムを一定の基準でランク付けし、ランクが上位のサンプルプログラムをソフトウェア部品の有力候補としてユーザに提示してもよい。

【0094】

また、クラスタ評価部１２６は、クラスタ内で特徴量が中心に最も近いサンプルプログラムを、ソフトウェア部品の有力候補として選択してもよい。また、クラスタ評価部１２６は、選択した階層に現れる２以上のクラスタのうち、クラスタ評価値が閾値を超えるクラスタまたはクラスタ評価値が上位のクラスタのみをユーザに提示してもよい。情報処理装置１００は、サンプルプログラムに基づいて編集されたソフトウェア部品をユーザから受け付け、受け付けたソフトウェア部品を保存してもよい。また、情報処理装置１００は、受け付けたソフトウェア部品を他の情報処理装置に送信してもよい。

【0095】

図１０は、クラスタリングの手順例を示すフローチャートである。
（Ｓ１０）スクリプト実行部１２２は、機械学習スクリプトを実行することで、その機械学習スクリプトを用いて訓練された機械学習モデルのモデル精度を測定する。

【0096】

（Ｓ１１）スクリプト分割部１２３は、機械学習スクリプトを分割して複数のサンプルプログラムを生成し、各サンプルプログラムに対してモデル精度を付与する。
（Ｓ１２）特徴量算出部１２４は、複数のサンプルプログラムからトークンを抽出し、各サンプルプログラムに対してトークンの出現の有無を示す特徴量を算出する。

【0097】

（Ｓ１３）クラスタリング部１２５は、ステップＳ１２の特徴量を用いて、クラスタ数を段階的に減少させながら複数のサンプルプログラムをクラスタに分類する階層的クラスタリングを実行する。これにより、クラスタリング部１２５は、階層的クラスタリングの結果を示す樹形図（デンドログラム）を生成する。

【0098】

（Ｓ１４）クラスタ評価部１２６は、樹形図から１つの階層を選択する。クラスタ評価部１２６は、選択した階層に現れる１つのクラスタを選択する。クラスタ評価部１２６は、前述の数式（１）に従って、選択したクラスタのクラスタ評価値を算出する。クラスタ評価値は、クラスタサイズを示す第１項と、凝集度を示す第２項と、平均モデル精度を示す第３項と、モデル精度の分散の逆数を示す第４項との積である。

【0099】

（Ｓ１５）クラスタ評価部１２６は、選択された階層内の全てのクラスタを評価したか判断する。全てのクラスタが評価済みである場合、ステップＳ１６に処理が進む。未評価のクラスタがある場合、ステップＳ１４に処理が戻り、次のクラスタが選択される。

【0100】

（Ｓ１６）クラスタ評価部１２６は、選択された階層に現れる全てのクラスタのクラスタ評価値を合算することで、選択された階層の階層評価値を算出する。
（Ｓ１７）クラスタ評価部１２６は、樹形図に含まれる全ての階層を評価したか判断する。全ての階層が評価済みである場合、ステップＳ１８に処理が進む。未評価の階層がある場合、ステップＳ１４に処理が戻り、次の階層が選択される。

【0101】

（Ｓ１８）クラスタ評価部１２６は、樹形図から階層評価値が最大の階層を選択する。クラスタ評価部１２６は、選択した階層のクラスタリング結果を出力する。
以上説明したように、第２の実施の形態の情報処理装置１００は、既存の機械学習スクリプトからサンプルプログラムの集合を抽出し、階層的クラスタリングによってサンプルプログラムの集合を２以上のクラスタに分類する。これにより、１つのソフトウェア部品にすることが好適なクラスタがユーザに提示され、機械学習スクリプトに関するソフトウェア部品を作成する作業が効率化される。

【0102】

また、情報処理装置１００は、各クラスタに対してクラスタ評価値を算出し、複数の階層それぞれに対してクラスタ評価値から階層評価値を算出する。そして、情報処理装置１００は、クラスタ数の異なる複数の階層のクラスタリング結果のうち、階層評価値が最も高い階層のクラスタリング結果を選択する。これにより、複数の階層の中から適切な階層を人手で判断しなくてよく、ソフトウェア部品を作成する作業が効率化される。特に、多数のサンプルプログラムから階層の深い樹形図が生成された場合であっても、ソフトウェア部品の作成に好適な階層が自動的に判定される。

【0103】

また、情報処理装置１００は、クラスタサイズを示す第１項と、クラスタ内の特徴量の凝集度を示す第２項と、クラスタ内の平均モデル精度を示す第３項と、クラスタ内のモデル精度の分散の逆数を示す第４項との積を、クラスタ評価値として算出する。これにより、ソフトウェア部品の再利用性および有用性の観点からクラスタが評価され、クラスタ評価値の高いクラスタから高品質なソフトウェア部品が作成される。

【符号の説明】

【0104】

１０情報処理装置
１１記憶部
１２処理部
１３クラスタデータ
１４性能データ
１５ａ，１５ｂ，１５ｃ，１５ｄ，１５ｅクラスタ
１６ａ，１６ｂ，１６ｃ，１６ｄ，１６ｅ，１７ａ，１７ｂ評価値

【図1】