特開2022-157976 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特開2022-157976分析プログラム、分析装置、分析方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022157976

(43)【公開日】2022-10-14

(54)【発明の名称】分析プログラム、分析装置、分析方法

(51)【国際特許分類】

G06F 11/36 20060101AFI20221006BHJP

【ＦＩ】

G06F11/36 104

【審査請求】未請求

【請求項の数】8

【出願形態】ＯＬ

(21)【出願番号】P 2021062545

(22)【出願日】2021-04-01

(71)【出願人】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】100087480

【弁理士】

【氏名又は名称】片山修平

(72)【発明者】

【氏名】堀田圭佑

【テーマコード（参考）】

5B042

【Ｆターム（参考）】

5B042HH08

5B042HH39

5B042NN09

(57)【要約】

【課題】潜在バグを修正する修正プログラムを絞り込むのに有用な分析プログラム、分析装置、及び分析方法を提供すること。
【解決手段】第１及び第２のソースプログラムの各々を表現するグラフであって、実行時に問題を起こす第１及び第２の要素の各々に対応した第１及び第２のノードを有する第１及び第２のグラフを生成し、第１のグラフと第２のグラフに共通に含まれる複数のエッジのうち、第１のノードから測った距離と、第２のノードから測った距離とが等しい複数の第１のエッジを特定し、
複数の第１のエッジの各々に対し、第２のノードからの距離が近くなるほど大きくなる重みを算出し、第１のエッジの個数と重みとに基づいて、第１のソースプログラムと第２のソースプログラムとの類似度を算出する、
処理をコンピュータに実行させるための分析プログラムによる。
【選択図】図１１

【特許請求の範囲】

【請求項1】

第１のソースプログラムを表現するグラフであって、該第１のソースプログラムの実行時に問題を起こす該第１のソースプログラムの第１の要素に対応した第１のノードを有する第１のグラフを生成し、
第２のソースプログラムを表現するグラフであって、該第２のソースプログラムの実行時に問題を起こす該第２のソースプログラムの第２の要素に対応した第２のノードを有する第２のグラフを生成し、
前記第１のグラフと前記第２のグラフに共通に含まれる複数のエッジのうち、前記第１のノードから測った距離と、前記第２のノードから測った距離とが等しい複数の第１のエッジを特定し、
複数の前記第１のエッジの各々に対し、前記第２のノードからの距離が近くなるほど大きくなる重みを算出し、
前記第１のエッジの個数と前記重みとに基づいて、前記第１のソースプログラムと前記第２のソースプログラムとの類似度を算出する、
処理をコンピュータに実行させるための分析プログラム。

【請求項2】

前記類似度は、前記第１のエッジの個数と前記重みの少なくとも一方が大きくなるほど大きくなることを特徴とする請求項１に記載の分析プログラム。

【請求項3】

前記第１の要素は、前記第１のソースプログラムに含まれる文であり、
前記第２の要素は、前記第２のソースプログラムに含まれる文であることを特徴とする請求項１に記載の分析プログラム。

【請求項4】

前記第１のグラフは、前記第１のソースプログラムの全体を表す第１のルートノードを有するグラフであり、
前記第２のグラフは、前記第２のソースプログラムの全体を表す第２のルートノードを有するグラフであり、
前記第１のグラフに含まれる複数のノードのうち、前記第１のノードを起点として子ノードから親ノードの順に辿って前記第１のルートノードに至る第１の経路にないノードを削除し、
前記第２のグラフに含まれる複数のノードのうち、前記第２のノードを起点として子ノードから親ノードの順に辿って前記第２のルートノードに至る第２の経路にないノードを削除する、
処理を前記コンピュータに更に実行させるための請求項１に記載の分析プログラム。

【請求項5】

前記第１のグラフと前記第２のグラフの各々は、抽象構文木又はプログラム依存グラフを含むことを特徴とする請求項１に記載の分析プログラム。

【請求項6】

内容が相互に異なる複数の前記第１のソースプログラムごとに前記類似度を算出し、
前記類似度が高い前記第１のソースプログラムから順に、該第１のソースプログラムにおける前記第１の問題を修正した修正プログラムを提示する、
処理を前記コンピュータに更に実行させるための請求項１に記載の分析プログラム。

【請求項7】

第１のソースプログラムを表現するグラフであって、該第１のソースプログラムの実行時に問題を起こす該第１のソースプログラムの第１の要素に対応した第１のノードを有する第１のグラフと、第２のソースプログラムを表現するグラフであって、該第２のソースプログラムの実行時に問題を起こす該第２のソースプログラムの第２の要素に対応した第２のノードを有する第２のグラフとを生成する生成部と、
前記第１のグラフと前記第２のグラフに共通に含まれる複数のエッジのうち、前記第１のノードから測った距離と、前記第２のノードから測った距離とが等しい複数の第１のエッジを特定する特定部と、
複数の前記第１のエッジの各々に対し、前記第２のノードからの距離が近くなるほど大きくなる重みを算出する重み算出部と、
前記第１のエッジの個数と前記重みとに基づいて、前記第１のソースプログラムと前記第２のソースプログラムとの類似度を算出する類似度算出部と、
を有することを特徴とする分析装置。

【請求項8】

コンピュータが、
第１のソースプログラムを表現するグラフであって、該第１のソースプログラムの実行時に問題を起こす該第１のソースプログラムの第１の要素に対応した第１のノードを有する第１のグラフを生成し、
第２のソースプログラムを表現するグラフであって、該第２のソースプログラムの実行時に問題を起こす該第２のソースプログラムの第２の要素に対応した第２のノードを有する第２のグラフを生成し、
前記第１のグラフと前記第２のグラフに共通に含まれる複数のエッジのうち、前記第１のノードから測った距離と、前記第２のノードから測った距離とが等しい複数の第１のエッジを特定し、
複数の前記第１のエッジの各々に対し、前記第２のノードからの距離が近くなるほど大きくなる重みを算出し、
前記第１のエッジの個数と前記重みとに基づいて、前記第１のソースプログラムと前記第２のソースプログラムとの類似度を算出する、
処理を実行することを特徴とする分析方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、分析プログラム、分析装置、分析方法に関する。

【背景技術】

【0002】

プログラムの中には、不具合が表面化せずに潜んだままの潜在バグが含まれることがある。潜在バグは、プログラムのソースコードを解析する静的解析ツールを用いることで検出することができる。また、静的解析ツールの中には、検出した潜在バグを解消する修正プログラムを提示するものもある。

【0003】

しかしながら、静的解析ツールが一つの潜在バグに対して多数の修正プログラムを提示することがあり、それらのうちで適切な修正プログラムを特定するのは容易ではない。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０１０－７９４４７号公報

【特許文献2】特開２０１９－２１０３７号公報

【非特許文献】

【0005】

【非特許文献1】増田ら、「二つの木の最大共通部分グラフを求めるアルゴリズム」、電子情報通信学会論文誌A、Vol. J77-A、No.3、pp.460-470、1994

【発明の概要】

【発明が解決しようとする課題】

【0006】

一側面によれば、潜在バグを修正する修正プログラムを絞り込むのに有用な分析プログラム、分析装置、及び分析方法を提供することを目的とする。

【課題を解決するための手段】

【0007】

一側面によれば、第１のソースプログラムを表現するグラフであって、該第１のソースプログラムの実行時に問題を起こす該第１のソースプログラムの第１の要素に対応した第１のノードを有する第１のグラフを生成し、第２のソースプログラムを表現するグラフであって、該第２のソースプログラムの実行時に問題を起こす該第２のソースプログラムの第２の要素に対応した第２のノードを有する第２のグラフを生成し、前記第１のグラフと前記第２のグラフに共通に含まれる複数のエッジのうち、前記第１のノードから測った距離と、前記第２のノードから測った距離とが等しい複数の第１のエッジを特定し、複数の前記第１のエッジの各々に対し、前記第２のノードからの距離が近くなるほど大きくなる重みを算出し、前記第１のエッジの個数と前記重みとに基づいて、前記第１のソースプログラムと前記第２のソースプログラムとの類似度を算出する処理をコンピュータに実行させるための分析プログラムが提供される。

【発明の効果】

【0008】

一側面によれば、潜在バグを修正する修正プログラムを絞り込むのに有用な分析プログラム、分析装置、及び分析方法を提供することができる。

【図面の簡単な説明】

【0009】

【図1】図１（ａ）、（ｂ）は、JAVA(登録商標)で記述されたソースプログラムの潜在バグについて示す模式図である。

【図2】図２（ａ）、（ｂ）は、静的解析ツールを実行しているコンピュータの処理について説明するための模式図である。

【図3】図３（ａ）は、潜在バグの修正ロジックの一例を示す模式図であり、図３（ｂ）は、修正ロジックとは相性が良くない第２のソースプログラムと、その第２のソースプログラムに当該修正ロジックを適用して得られた修正プログラムの模式図である。

【図4】図４は、本実施形態の基礎となる事項について示す模式図である。

【図5】図５は、本実施形態に係る分析装置が行う処理の模式図である。

【図6】図６は、類似度の算出方法について示す模式図（その１）である。

【図7】図７は、類似度の算出方法について示す模式図（その２）である。

【図8】図８は、類似度の算出方法について示す模式図（その３）である。

【図9】図９（ａ）、（ｂ）は、類似度の算出方法について示す模式図（その４）である。

【図10】図１０（ａ）、（ｂ）は、類似度の算出方法について示す模式図（その５）である。

【図11】図１１は、類似度の算出方法について示す模式図（その５）である。

【図12】図１２は、図１１の各グラフを用いた場合の第１のソースプログラムと第２のソースプログラムとの類似度の計算例を示す図である。

【図13】図１３は、各グラフに含まれるエッジの重みを各ノードからの距離が近くなるほど大きくすることで得られる効果について説明するための模式図である。

【図14】図１４は、本実施形態に係る分析装置の機能構成図である。

【図15】図１５は、グラフ構造情報の模式図である。

【図16】図１６は、エッジ情報の模式図である。

【図17】図１７は、修正プログラムの提示例について示す模式図である。

【図18】図１８は、本実施形態に係る分析方法のフローチャートである。

【図19】図１９は、剪定処理のフローチャートである。

【図20】図２０は、本実施形態に係る分析装置のハードウェア構成図である。

【発明を実施するための形態】

【0010】

本実施形態の説明に先立ち、本願発明者が検討した事項について説明する。

【0011】

図１（ａ）、（ｂ）は、JAVA(登録商標)で記述されたソースプログラムの潜在バグについて示す模式図である。

【0012】

このうち、図１（ａ）における文「name == arg.name」は、文字列「name」と文字列「arg.name」とが等しいかを判定する処理を意図して開発者が記述した文である。

【0013】

しかし、JAVA(登録商標)の仕様では、この記述では文字列「name」と文字列「arg.name」の各々のメモリ内での格納場所が等しいかが判定されてしまう。よって、文「name == arg.name」は潜在バグとなる。この潜在バグの種類を以下では「STR_EQ」と呼ぶ。

【0014】

一方、図１（ｂ）における文「str += s;」は、文字列「str」に文字列「s」を連結する処理を意図して開発者が記述した文である。この記述によれば、開発者の意図したように文字列「str」に文字列「s」が連結される。

【0015】

しかし、forループの中に文「str += s;」が記述されていることで、ループの回数が増えると処理に時間がかかるという問題が生じる。よって、文「str += s;」は潜在バグとなる。この潜在バグの種類を以下では「SBSC」と呼ぶ。

【0016】

このように、潜在バグは、開発者の意図とは異なる処理が実行されるという問題（図１（ａ））や、開発者の意図通りに処理されるがプログラムのパフォーマンスが低下する問題（図１（ａ））の原因となるプログラム中の要素を指す。

【0017】

潜在バグが含まれているプログラムは実行時に問題を引き起こす。これを避けるため、開発者は、プログラムの開発段階で静的解析ツールを用いてプログラムを検査することがある。

【0018】

静的解析ツールは、ソースプログラムに潜在バグが存在するかを検査し、潜在バグが見つかったときにそれを修正するための修正プログラムを提示するためのプログラムである。

【0019】

図２（ａ）、（ｂ）は、静的解析ツールを実行しているコンピュータの処理について説明するための模式図である。

【0020】

コンピュータ１は、静的解析ツールを実行するPC(Personal Computer)や仮想マシン等である。

【0021】

まず、図２（ａ）に示すように、コンピュータ１は、リポジトリ２からソースプログラムの修正事例３を取得する。

【0022】

リポジトリ２は、コンピュータ１とネットワークで接続されたストレージ装置である。

【0023】

また、修正事例３は、潜在バグが潜む第１のソースプログラム４と、その潜在バグの修正箇所５とを対応付けた事例である。この例では、修正箇所５における記号「-」が修正前の文を示し、記号「+」が修正後の文を示す。コンピュータ１は、前述の「STR_EQ」や「SBSC」等の潜在バグの種類ごとに複数の修正事例３をリポジトリ２から収集する。

【0024】

次いで、コンピュータ１は、「STR_EQ」の潜在バグの複数の修正事例３に基づいて、当該潜在バグを修正する修正ロジック６を生成する。修正ロジック６は、潜在バグのある文の修正手順を示す情報である。例えば、記号「-」で示される文を記号「+」で示される文に修正する手順が修正ロジック６となる。修正ロジック６の個数は特に限定されず、「STR_EQ」という一つの潜在バグに対してコンピュータ１が複数の修正ロジック６を生成することもある。

【0025】

これと同様にして、コンピュータ１は、「SBSC」の潜在バグを修正するための修正ロジック６を生成する。

【0026】

次いで、図２（ｂ）に示すように、コンピュータ１は、開発段階の第２のソースプログラム８を取得する。第２のソースプログラム８には、例えば「STR_EQ」の潜在バグ８ａが含まれているものとする。

【0027】

この場合、コンピュータ１は、第２のソースプログラム８を１文ごと検査することにより、第２のソースプログラム８に潜在バグ８ａが含まれているかを判定する。

【0028】

そして、潜在バグ８ａが含まれている場合、コンピュータ１は、「STR_EQ」の潜在バグ８ａに対応した複数の修正ロジック６を特定する。

【0029】

次いで、コンピュータ１は、第２のソースプログラム８に複数の修正ロジック６の各々を適用した複数の修正プログラム９を提示する。

【0030】

以上により、静的解析ツールを実行しているコンピュータが行う基本的な処理を終える。

【0031】

これによれば、コンピュータ１は、潜在バグ８ａがある一つの第２のソースプログラム８に対して複数の修正プログラム９を提示する。その修正プログラム９の個数が数十から数百の場合、開発者は、修正プログラム９で実際に潜在バグ８ａが解消されているかを多数の修正プログラム９を実行することで確かめる必要があり、プログラムの開発効率が低下する。

【0032】

これを避けるには、コンピュータ１が、「STR_EQ」に対応する全ての修正ロジック６のうちで、分析対象の第２のソースプログラム８に適した一部の修正ロジック６を採用すればよい。しかし、修正ロジック６とその適用先の第２のソースプログラム８との間には相性があり、修正ロジック６の中には第２のソースプログラム８の潜在バグ８ａを解消しきれないものある。これについて図３（ａ）を参照しながら説明する。

【0033】

図３（ａ）は、潜在バグの修正ロジック６の一例を示す模式図である。

【0034】

第１のソースプログラム４は、変数「p」が「null」ではないときにprint文を実行することを意図したプログラムである。しかし、この例では開発者がif文の中に誤って文「p == null」を記述したことにより、変数「p」が「null」のときにprint文が実行されてしまう。よって、文「p == null」は潜在バグ４ａである。

【0035】

修正ロジック６は、文「p == null」を文「p != null」と修正することによりこの潜在バグを修正するロジックである。

【0036】

図３（ｂ）は、この修正ロジック６とは相性が良くない第２のソースプログラム８と、その第２のソースプログラム８に当該修正ロジック６を適用して得られた修正プログラム９の模式図である。

【0037】

第２のソースプログラム８は、変数「s」が「null」ではないときに変数「this.score」の値を増分「s.calc()」だけインクリメントすることを意図したプログラムである。

【0038】

しかし、この例では開発者が二つのif文のうちの最初のif文に文「s == null」を誤って記述したことにより、変数「s」が「null」のときに変数「this.score」の値がインクリメントされてしまう。よって、この第２のソースプログラム８の潜在バグ８ａは文「s == null」である。

【0039】

修正プログラム９は、この第２のソースプログラム８に対して図３（ａ）の修正ロジック６を適用したプログラムである。

【0040】

この例では、修正ロジック６は、修正プログラム９における二つのif文のうちの最後のif文の中の文９ａに適用されているため、潜在バグ８ａは解消されていない。よって、修正ロジック６で第２のソースプログラム８の潜在バグ８ａを修正することはできず、修正ロジック６と第２のソースプログラム８とは相性が悪い。

【0041】

プログラム開発の効率化のために多数の修正ロジック６のうちで第２のソースプログラム８に適した一部を採用するには、多数の修正ロジック６から第２のソースプログラム８と相性の悪いものを排除すればよい。しかし、修正ロジック６と第２のソースプログラム８との相性の良し悪しを判定するのは容易ではない。以下、本実施形態について説明する。

【0042】

（本実施形態）
図４は、本実施形態の基礎となる事項について示す模式図である。なお、図４において、図１～図３で説明したのと同じ要素にはこれらの図におけるのと同じ符号を付し、以下ではその説明を省略する。

【0043】

本実施形態では、修正ロジック６の生成に使用した第１のソースプログラム４と、分析対象の第２のソースプログラム８との類似性に着目する。これらが類似していると、第１のソースプログラム４の潜在バグ４ａが解消されたのと同様に、修正ロジック６により第２のソースプログラム８の潜在バグ８ａも解消されると考えられる。特に、各潜在バグ４ａ、８ａの近くで各ソースプログラム４、８が類似していると、修正ロジック６により第２のソースプログラム８の潜在バグ８ａが解消される可能性が高い。そこで、本実施形態では、以下のようにして二つのソースプログラムが潜在バグの近くで類似しているかを判定する。

【0044】

図５は、本実施形態に係る分析装置２０が行う処理の模式図である。

【0045】

分析装置２０は、PCや仮想マシン等のコンピュータであって、複数の第１のソースプログラム４と第２のソースプログラム８とを取得する。前述のように、第１のソースプログラム４は、修正ロジック６の生成に使用したプログラムである。一例として、第１のソースプログラム４には潜在バグ４ａが含まれており、当該潜在バグ４ａが修正ロジック６で修正される。なお、潜在バグ４ａは、第１のソースプログラム４の実行時に問題を起こす第１の要素の一例である。

【0046】

また、第２のソースプログラム８は、潜在バグ８ａがあるかを分析する対象のプログラムである。その潜在バグ８ａは、第２のソースプログラム８の実行時に問題を起こす第２の要素の一例である。

【0047】

次いで、分析装置２０は、第２のソースプログラム８に潜在バグ８ａが存在するかを検査し、潜在バグ８ａが存在する場合に複数の第１のソースプログラム４の各々と第２のソースプログラム８との類似度を算出する。

【0048】

次に、その類似度の算出方法について説明する。

【0049】

図６～図１１は、類似度の算出方法について示す模式図である。まず、図６に示すように、分析装置２０は、第１のソースプログラム４を表現する第１のグラフG₁として抽象構文木を生成する。この第１のグラフG₁の第１のルートノード３１ａは、第１のソースプログラム４の全体を表すノードである。また、第１のグラフG₁の各ノードは第１のソースプログラム４の各々の要素を示す。要素は特に限定されないが、この例では第１のソースプログラム４の文を要素として採用する。例えば、「Package Declaration」のノードは、第１のソースプログラム４が使用するパッケージを宣言する文を示す。

【0050】

そして、第１のグラフG₁のエッジは、各ノードが表す文同士の依存関係を示す。ここでは、ある文が他の文の内部に記述されているとき、当該文は他の文に依存すると呼ぶ。例えば、「If statement」と「Return Statement」の各々の文に対応したノード間のエッジは、文「If statement」の内部に文「Return Statement」が記述されていることを示す。また、以下では依存元の文に対応したノードを子ノードと呼び、依存先の文に対応したノードを親ノードと呼ぶ。上記の例では、文「If statement」に対応したノードが親ノードであり、文「Return Statement」に対応したノードが子ノードである。

【0051】

なお、分析装置２０は、抽象構文木に代えてプログラム依存グラフを第１のグラフG₁として生成してもよい。

【0052】

次に、図７に示すように、分析装置２０は、第１のグラフG₁に、意味的な情報を示す有向エッジ３１ｘを追加する。

【0053】

有向エッジ３１ｘは、抽象構文木では表現できない文同士の意味的な繋がりをしめすエッジである。例えば、文「Expression Statement」から文「Field Declaration」に向かう有向エッジ３１ｘは、文「Expression Statement」の内部で使用する変数が、文「Field Declaration」において定義されていることを示す。なお、有向エッジ３１ｘに付された文字列「decl」は、当該有向エッジ３１ｘが示す文の意味的な繋がりが変数の定義であることを示す。

【0054】

次に、図８に示すように、分析装置２０は、第１のグラフG₁に含まれる複数のノードのうちで、第１のソースプログラム４の潜在バグ４ａに対応した第１のノード３１ｂを特定する。ここでは、文「Expression」が潜在バグ４ａであり、この文「Expression」に対応したノードが第１のノード３１ｂであるとする。

【0055】

そして、分析装置２０は、第１のソースプログラム４の要素のうちで潜在バグ４ａとの関りが薄い要素に対応したノードを削除する。この例では、第１のノード３１ｂを起点として子ノードから親ノードの順に辿って第１のルートノード３１ａに至る第１の経路Ｐ１、Ｐ２にないノードを削除する。例えば、第１のノード３１ｂの親ノードである文「If Statement」に対応したノードは経路Ｐ１にあるため削除されずに残る。同様に、文「Field Declaration」に対応したノードは、有向エッジ３１ｘで一部が形成される経路Ｐ２にあるため、削除されずに残る。

【0056】

一方、文「If Statement」に対応したノードの子ノードである文「Return Statement」に対応したノードは経路Ｐ１にないため削除される。

【0057】

これ以降の処理について図９～図１１を参照して説明する。

【0058】

図９（ａ）は、図６～図８で生成した第１のグラフG₁を簡略化した図である。図９（ａ）とこれ以降の図では各ノードを「A」、「B」、「C」、…等の文字で識別する。また、第１のルートノード３１ａは「A」のノードであり、潜在バグ４ａに対応した第１のノード３１ｂは「B」のノードであるとする。

【0059】

分析装置２０は、分析対象の第２のソースプログラム８に対しても図６～図８の処理を行うことにより第２のグラフを生成する。

【0060】

図９（ｂ）は、分析装置２０が生成した第２のソースプログラム８を表現する第２のグラフG₂の模式図である。

【0061】

第１のグラフG₁と同様に、第２のグラフG₂の第２のルートノード３２ａは、第２のソースプログラム８の全体を表すノードである。また、第２のグラフG₂の各ノードは、第２のソースプログラム８の要素である個々の文を示す。更に、第２のグラフG₂の第２のノード３２ｂは、第２のソースプログラム８の潜在バグ８ａに対応したノードである。

【0062】

次に、図１０（ａ）の表内に示すように、分析装置２０は、第１のグラフG₁に含まれるエッジを列挙する。この例では、各エッジを、その両端にある親ノードと子ノードとで識別する。例えば、「A-B」は、親ノードが「A」のノードであり、かつ子ノードが「B」のノードであるエッジを示す。

【0063】

更に、本実施形態では、分析装置２０は、各々のエッジについて、第１のノード３１ｂから測った距離を算出する。第１のノード３１ｂとエッジとの距離は、当該エッジから第１のノード３１ｂに至るまでに辿るエッジの本数である。但し、エッジの本数を計数する際、第１のノード３１ｂとの距離の計測対象となるエッジ自身は除く。例えば、エッジ「A-B」は、自エッジ以外のエッジを辿らなくても第１のノード３１ｂに辿り着けるため、エッジ「A-B」と第１のノード３１ｂとの距離は「0」である。

【0064】

一方、エッジ「D-F」は、第１のノード３１ｂに辿り着くために自エッジ以外の一つのエッジ「B-D」を通る必要がある。よって、エッジ「D-F」と第１のノード３１ｂとの距離は「1」である。

【0065】

更に、この例では、分析装置２０はエッジの本数も計数する。例えば、エッジ「B-C」は、第１のグラフG₁に二本含まれているため、その本数は「2」となる。

【0066】

次に、図１０（ｂ）の表内に示すように、分析装置２０は、第２のグラフG₂に対しても図１０（ａ）と同様にしてエッジを抽出する。更に、分析装置２０は、第２のノード３２ｂから測った各エッジの距離と、各エッジの本数とを算出する。

【0067】

次いで、図１１に示すように、分析装置２０は、各グラフG₁、G₂に共通に含まれる複数のエッジのうち、第１のノード３１ｂから測った距離と、第２のノード３２ｂから測った距離とが等しい第１のエッジ３３を特定する。

【0068】

図１１では、特定した第１のエッジ３３を実線で示すと共に、当該第１のエッジ３３に対応する表の行にハッチングをかけてある。また、特定されなかったエッジは点線で示してある。

【0069】

例えば、エッジ「A-B」は、第１のグラフG₁と第２のグラフG₂の両方に共通に含まれており、かつ、第１のノード３１ｂから測った距離と第２のノード３２ｂから測った距離がいずれも「0」で等しい。よって、エッジ「A-B」は、第１のエッジ３３として特定される。

【0070】

一方、エッジ「B-E」について考える。エッジ「B-E」は、第１のグラフG₁と第２のグラフG₂の両方に共通に含まれている。しかし、第１のグラフG₁においては第１のノード３１ｂから測ったエッジ「B-E」の距離は「0」である。これに対し、第２のグラフG₂においては第２のノード３２ｂから測ったエッジ「B-E」の距離は「3」である。よって、エッジ「B-E」は、第１のノード３１ｂから測った距離と第２のノード３２ｂから測った距離とが異なるため、第１のエッジ３３として特定されない。

【0071】

なお、エッジ「B-C」は各グラフG₁、G₂に共通に含まれ、かつ第１のノード３１ｂから測った距離と第２のノード３２ｂから測った距離がいずれも「0」で等しい。但し、エッジ「B-E」は、第１のグラフG₁には２本含まれるのに対し、第２のグラフG₂には３本含まれる。この場合、分析装置２０は、第１のグラフG₁と第２のグラフG₂の両方に共通に含まれる２本のエッジ「B-E」を第１のエッジ３３として特定する。図１１において第２のグラフG₂の表でエッジ「B-E」の行にかけられた薄いハッチングは、このように３本のうちの２本のみが第１のエッジ３３として特定されることを示す。

【0072】

次に、分析装置２０は、次の式（１）に従って、第１のソースプログラム４と第２のソースプログラム８の類似度Sim(G₁, G₂)を算出する。

【0073】

【数1】

なお、式（１）におけるeは各グラフG₁、G₂のエッジを示す。また、f(e)は、エッジeの個数を示す。そして、W_eは、分析装置２０がエッジeに付与する重みである。本実施形態では、各ソースプログラム４、８に含まれる要素のうちで潜在バグ４ａ、８ａに近い要素を類似度の計算に際して重視することで、潜在バグ４ａ、８ａに近い部分で各ソースプログラム４、８が類似してるかを判定する。そのため、この例では、分析装置２０が、第１のグラフG₁に含まれる複数のエッジeの重みW_eを、第１のノード３１ｂからの距離が近くなるほど大きくする。同様に、分析装置２０は、第２のグラフG₂に含まれる複数のエッジeの重みW_eを、第２のノード３２ｂからの距離が近くなるほど大きくする。

【0074】

一例として、W_eは以下の式（２）で定義される。

【0075】

【数2】

但し、n_eは、第１のグラフG₁のエッジeについては第１のノード３１ｂとの距離であり、第２のグラフG₂のエッジeについては第２のノード３２ｂとの距離である。

【0076】

また、式（１）の分子は、第１のエッジ３３の重みW_eと個数f(e)との積の２倍である。これによれば、類似度Simは、第１のエッジ３３の個数f(e)と重みW_eの少なくとも一方が大きくなるほど大きくなる。これにより、潜在バグ４ａ、８ａに近い部分で各ソースプログラム４、８が類似してるほど類似度Simを大きくすることができる。

【0077】

図１２は、図１１の各グラフG₁、G₂を用いた場合の第１のソースプログラム４と第２のソースプログラム８との類似度の計算例を示す図である。

【0078】

図１２に示すように、この例では類似度は約0.7339となる。一方、全てのエッジに対して式（１）の重みW_eを「1」とすると類似度は約0.5455となり、上記の結果よりも類似度が低下する。これにより、重みW_eを加味して類似度を算出することにより、実際に潜在バグ４ａ、８ａに近い部分で各ソースプログラム４、８が類似してるほど類似度Simを大きくなることが明らかとなった。

【0079】

図１３は、各グラフG₁、G₂に含まれるエッジeの重みW_eを、式（２）のように各ノード３１ｂ、３２ｂからの距離が近くなるほど大きくすることで得られる効果について説明するための模式図である。

【0080】

図１３に示すように、各グラフG₁、G₂に共通に含まれる第１のエッジ３３であるエッジ「D-B」は、他の第１のエッジ３３と比べて第１のノード３１ｂや第２のノード３２ｂから離れている。よって、エッジ「D-B」の重みW_eは小さくなり、エッジ「D-B」が類似度Simに与える影響は小さい。

【0081】

一方、第１のエッジ３３の他の例であるエッジ「A-B」は、エッジ「D-B」とくらべて第１のノード３１ｂや第２のノード３２ｂに近い。よって、エッジ「A-B」の重みW_eは大きくなり、エッジ「A-B」が類似度Simに与える影響は大きい。

【0082】

このように、本実施形態では、二つのソースプログラム４、８が、潜在バグ４ａ、８ａに近い部分で類似しているかを類似度Simに反映させることができる。

【0083】

しかも、本実施形態では、図８のように第１のグラフG₁において経路Ｐ１、Ｐ２上にないノードを削除した状態で分析装置２０が式（１）の類似度Simを算出する。第１のグラフG₁において経路Ｐ１、Ｐ２上にないノードは潜在バグ８ａとの関連が薄いノードである。第２のグラフG₂についても同様である。そのため、このようにノードを削除してから類似度Simを算出することで、潜在バグ４ａ、８ａと関連が薄い各ソースプログラム４、８の要素が類似度Simに与える影響を排除できる。

【0084】

なお、図８のように不要なノードを削除せずに、各グラフG₁、G₂の最大共通部分グラフの大きさを基にして類似度を算出する方法もある。しかし、最大共通部分グラフを特定する問題はNP困難であることが知られている。これでは、最大共通部分グラフを特定するのに要する時間が複数の修正プログラム９を試行するのに要する時間よりも長くなってしまい、効率的にプログラム開発をすることができない。

【0085】

一方、図８のように不要なノードを削除してから類似度Simを算出する場合では、第１のエッジ３３の本数Nに対してO(N)の計算量で済み、効率的にプログラム開発をすることができる。

【0086】

また、本実施形態のようにグラフG₁、G₂を生成してから類似度Simを算出するのではなく、分析装置２０が各ソースプログラム４、８をテキストベースで比較して両者の類似度を算出することも考えられる。テキストベースの類似度は、例えば、分析装置２０が各ソースプログラム４、８に対して字句解析を行い、両者に共通に出現する単語を計数することで算出し得る。しかしながら、テキストベースでは各ソースプログラム４、８は異なっていても、各ソースプログラム４、８が構造的に類似していたり意味的に類似していたりすることがある。よって、各ソースプログラム４、８の構造や意味を考慮して類似度を算出するには、本実施形態のように各ソースプログラム４、８を表すG₁、G₂を生成するのが好ましい。

【0087】

次に、本実施形態に係る分析装置２０の機能構成について説明する。

【0088】

図１４は、本実施形態に係る分析装置２０の機能構成図である。図１４に示すように、分析装置２０は、通信部４１、表示部４２、記憶部４３、及び制御部４４を備える。

【0089】

このうち、通信部４１は、インターネットやLAN(Local Area Network)等のネットワークに分析装置２０を接続するためのインターフェースである。また、表示部４２は、液晶ディスプレイ等の表示デバイスである。そして、記憶部４３は、複数の第１のソースプログラム４、分析対象の第２のソースプログラム８、及び複数の修正プログラム９等の各種の情報を記憶する。

【0090】

一方、制御部４４は、分析装置２０の各部を制御する処理部である。一例として、制御部４４は、取得部５１、グラフ生成部５２、削除部５３、エッジ特定部５４、重み算出部５５、類似度算出部５６、及び提示部５７を備える。

【0091】

このうち、取得部５１は、通信部４１を介して各ソースプログラム４、８、修正ロジック６、第１の潜在バグ位置情報６１、及び第２の潜在バグ位置情報６２を取得する処理部である。

【0092】

このうち、第１の潜在バグ位置情報６１は、複数の第１のソースプログラム４の各々の潜在バグ４ａの位置情報として、各第１のソースプログラム４において潜在バグ４ａが位置する行番号を格納した情報である。また、第２の潜在バグ位置情報６２は、第２のソースプログラム８の潜在バグ８ａの位置情報として、第２のソースプログラム８において潜在バグ８ａが位置する行番号を格納した情報である。

【0093】

例えば、取得部５１は、各ソースプログラム４、８に対して静的解析ツールを実行したコンピュータから各潜在バグ位置情報６１、６２と修正ロジック６とを取得し、それらを記憶部４３に格納する。また、この例では、複数の修正ロジック６の各々を生成するのに要する内容が相異なる複数の第１のソースプログラム４を取得部５１が取得する。なお、制御部４４自身が静的解析ツールを実行して各潜在バグ位置情報６１、６２と修正ロジック６とを記憶部４３に格納してもよい。

【0094】

グラフ生成部５２は、複数の第１のソースプログラム４の各々を表現する複数の第１のグラフG₁と、分析対象の第２のソースプログラム８を表現する第２のグラフG₂とを生成する処理部である。更に、グラフ生成部５２は、各グラフG₁、G₂の各々の構造を示すグラフ構造情報６３を生成し、そのグラフ構造情報６３を記憶部４３に格納する。

【0095】

図１５は、グラフ構造情報６３の模式図である。図１５に示すように、グラフ構造情報６３は、ノードテーブル６３ａとエッジテーブル６３ｂとを有する。

【0096】

このうち、ノードテーブル６３ａは、各グラフG₁、G₂のノードの情報が格納されたテーブルであって、「ID」、「ソースID」、「ノード種別」、「行番号」、及び「テキスト」の各属性を有する。

【0097】

このうち、属性「ID」は、ノードテーブル６３ａの各レコードを一意に識別する識別子である。また、属性「ソースID」は、複数の第１のソースプログラム４と分析対象の第２のソースプログラム８の各々を一意に識別する識別子である。

【0098】

属性「ノード種別」は、ノードに対応した文の機能を示す文字列である。例えば、文の機能がメソッド呼び出しの場合には、「ノード種別」には「MethodInvocation」が格納される。

【0099】

属性「行番号」は、ノードに対応した文の行番号である。そして、属性「テキスト」は、当該文の内容である。

【0100】

一方、エッジテーブル６３ｂは、各グラフG₁、G₂のエッジの情報が格納されたテーブルであって、「ID」、「ソースID」、「親ノードID」、「子ノードID」、及び「エッジ種別」の各属性を有する。

【0101】

このうち、属性「ID」は、エッジテーブル６３ｂの各レコードを一意に識別する識別子である。また、属性「ソースID」は、ノードテーブル６３ａの属性「ソースID」と同じである。

【0102】

そして、属性「親ノードID」はエッジの親ノードを識別する識別子であり、属性「子ノードID」はエッジの子ノードを識別する識別子である。

【0103】

属性「エッジ種別」は、エッジによって定義される文の意味的な繋がりを示す文字列である。例えば、図７のようにエッジが変数の定義を示す場合、属性「エッジ種別」には文字列「decl」が格納される。

【0104】

再び図１４を参照する。削除部５３は、図８に示したように、第１のグラフG₁に含まれる複数のノードのうち、第１のノード３１ｂを起点として子ノードから親ノードの順に辿って第１のルートノード３１ａに至る第１の経路にないノードを削除する。同様に、削除部５３は、第２のグラフG₂に含まれる複数のノードのうち、第２のノード３２ｂを起点として子ノードから親ノードの順に辿って第２のルートノード３２ａに至る第２の経路にないノードを削除する。

【0105】

また、削除部５３は、このようにノードを削除した後の各グラフG₁、G₂に係る剪定後グラフ構造情報６４を生成し、それを記憶部４３に格納する。なお、剪定後グラフ構造情報６４のフォーマットは、図１５のグラフ構造情報と同一なので、ここではその説明を省略する。

【0106】

エッジ特定部５４は、削除部５３がノードを削除した後の各グラフG₁、G₂に共通に含まれる複数の第１のエッジ３３を特定する処理部である。前述のように、第１のエッジ３３は、第１のグラフG₁と第２のグラフG₂の各々に共通に含まれる複数のエッジのうち、第１のノード３１ｂから測った距離と、第２のノード３２ｂから測った距離とが等しいエッジである。

【0107】

また、エッジ特定部５４は、複数の第１のエッジ３３に係るエッジ情報６５を生成し、そのエッジ情報６５を記憶部４３に格納する。

【0108】

図１６は、エッジ情報６５の模式図である。図１６に示すように、エッジ情報６５は、「ID」、「ソースID」、「エッジID」、「親ノード種別」、「子ノード種別」、及び「距離」の各属性を対応付けたテーブルである。

【0109】

このうち、「ID」と「ソースID」は、グラフ構造情報６３（図１５参照）におけるのと同様である。また、「エッジID」は、複数の第１のエッジ３３の各々を一意に識別する識別子である。

【0110】

「親ノード種別」と「子ノード種別」は、それぞれ第１のエッジ３３の親ノードと子ノードの各々に対応した文の機能を示す文字列であり、グラフ構造情報６３（図１５参照）における「ノード種別」と同一である。

【0111】

再び図１４を参照する。重み算出部５５は、前述の式（２）に従って複数の第１のエッジ３３の各々の重みW_eを算出する処理部である。

【0112】

また、類似度算出部５６は、前述の式（１）に従って、第１のソースプログラム４と第２のソースプログラム８との類似度Sim(G₁, G₂)を、複数の第１のソースプログラム４ごとに算出する処理部である。

【0113】

提示部５７は、複数の第１のソースプログラム４の各々に対応した複数の修正ロジック６で第２のソースプログラム８を修正した複数の修正プログラム８を生成し、それを記憶部４３に格納する。

【0114】

更に、提示部５７は、類似度Simが高い第１のソースプログラム４から順に、当該１のソースプログラム４に対応した修正ロジック６が適用された修正プログラム９を提示する。一例として、提示部５７は、修正プログラム９を表示する指示を表示部４２に対して通知することにより、開発者に修正プログラム９を提示する。

【0115】

図１７は、修正プログラム９の提示例について示す模式図である。図１７に示すように、この例では提示部５７が類似度Simの高い順に二つの修正プログラム９を提示する。各々の修正プログラム９には、修正前の潜在バグ８ａと、潜在バグ８ａを修正した後の文９ａとが示される。

【0116】

次に、本実施形態に係る分析方法について説明する。

【0117】

図１８は、本実施形態に係る分析方法のフローチャートである。まず、取得部５１が、各ソースプログラム４、８、修正ロジック６、第１の潜在バグ位置情報６１、及び第２の潜在バグ位置情報６２を取得し、これらを記憶部４３に格納する（ステップＳ１０）。

【0118】

次に、グラフ生成部５２が、複数の第１のソースプログラム４の各々を表現する複数の第１のグラフG₁を生成する（ステップＳ１１）。更に、グラフ生成部５２は、複数の第１のグラフG₁の各々の構造を示すグラフ構造情報６３を生成してそれを記憶部４３に格納する。

【0119】

次いで、グラフ生成部５２が、分析対象の第２のソースプログラム８を表現する第２のグラフG₂を生成する（ステップＳ１２）。また、グラフ生成部５２は、グラフ構造情報６３のレコードに、第２のグラフG₂の構造を示す情報を追加する。

【0120】

続いて、削除部５３が、各グラフG₁、G₂から不要なノードを削除する剪定処理を行う（ステップＳ１３）。この剪定処理は、図８に示したように、各グラフG₁、G₂のノードのうちで各ソースプログラム４、８の潜在バグ４ａ、８ａと関連性が薄いノードを削除することで、各グラフG₁、G₂を剪定する処理である。この剪定処理の詳細については後述する。

【0121】

次いで、エッジ特定部５４が、不要なノードを削除した後の各グラフG₁、G₂に共通に含まれる複数の第１のエッジ３３を特定する（ステップＳ１４）。また、エッジ特定部５４は、複数の第１のエッジ３３に係るエッジ情報６５を生成してそれを記憶部４３に格納する。

【0122】

次に、重み算出部５５が、前述の式（２）に従って複数の第１のエッジ３３の各々の重みW_eを算出する（ステップＳ１５）。

【0123】

続いて、類似度算出部５６が、前述の式（１）に従って第１のソースプログラム４と第２のソースプログラム８との類似度Simを複数の第１のソースプログラム４ごとに算出する（ステップＳ１６）。

【0124】

次いで、提示部５７が、類似度Simが高い第１のソースプログラム４から順に、当該１のソースプログラム４に対応した修正ロジック６で第２のソースプログラム８を修正した修正プログラム９を提示する（ステップＳ１７）。

【0125】

以上により、本実施形態に係る分析方法の基本的な処理を終える。

【0126】

次に、ステップＳ１３の剪定処理について説明する。

【0127】

図１９は、剪定処理のフローチャートである。まず、削除部５３が、第１のグラフG₁において、第１のノード３１ｂを起点として子ノードから親ノードの順に辿って第１のルートノード３１ａに至る全ての経路を列挙する（ステップＳ２０）。図８の例では、削除部５３は、全ての経路として第１の経路Ｐ１、Ｐ２を列挙する。

【0128】

次に、削除部５３が、第１のグラフG₁のエッジのうちで、ステップＳ２０で列挙した経路に含まれている全てのエッジを列挙する（ステップＳ２１）。

【0129】

続いて、削除部５３が、ステップＳ２１で列挙したエッジの親ノードと子ノードとを列挙し、それ以外の第１のグラフG₁のノードを削除する（ステップＳ２２）。

【0130】

次いで、削除部５３が、ステップＳ２１で列挙したエッジと、ステップＳ２２で列挙したノードに係る情報を剪定後グラフ構造情報６４に格納する（ステップＳ２３）。

【0131】

以上により剪定処理の基本的な処理を終える。なお、削除部５３は、第２のグラフG₂に対する剪定処理もこれと同様に行う。

【0132】

上記した本実施形態によれば、類似度算出部５６が、重みW_eと第１のエッジ３３の個数とを含む式（１）に基づいて、第１のソースプログラム４と第２のソースプログラム８との類似度Simを算出する（ステップＳ１６）。これによれば、潜在バグ４ａ、８ａに近い部分で各グラフG₁、G₂が似ているほど各ソースプログラム４、８の類似度Simが増大する。そして、第２のソースプログラム８との類似度Simが高く相性の良い第１のソースプログラム４に対する修正ロジック６を第２のソースプログラム８に適用した修正プログラム９で潜在バグ８ａが解消できる可能性が高まる。これにより、複数の修正プログラム９のうちで、潜在バグ８ａが解消できる可能性が高いプログラムを絞り込むことができる。

【0133】

しかも、ステップＳ１３においてグラフを剪定してから類似度算出部５６が各ソースプログラム４、８の類似度を算出するため、潜在バグ４ａ、８ａと関連が薄い各ソースプログラム４、８の要素が類似度Simに与える影響を排除できる。

【0134】

（ハードウェア構成）
次に、本実施形態に係る分析装置２０のハードウェア構成について説明する。

【0135】

図２０は、本実施形態に係る分析装置２０のハードウェア構成図である。

【0136】

図２０に示すように、分析装置２０は、記憶装置２０ａ、メモリ２０ｂ、プロセッサ２０ｃ、通信インターフェース２０ｄ、表示装置２０ｅ、及び媒体読取装置２０ｇを有する。これらの各部は、バス２０ｉにより相互に接続される。

【0137】

このうち、記憶装置２０ａは、Hard Disk Drive (HDD)やSolid State Drive (SSD)等の不揮発性のストレージであって、本実施形態に係る分析プログラム１００を記憶する。

【0138】

なお、分析プログラム１００をコンピュータが読み取り可能な記録媒体２０ｈに記録し、媒体読取装置２０ｇを介してプロセッサ２０ｃにその分析プログラム１００を読み取らせるようにしてもよい。

【0139】

そのような記録媒体２０ｈとしては、例えばCompact Disc - Read Only Memory (CD-ROM)、Digital Versatile Disc (DVD)、及びUniversal Serial Bus (USB )メモリ等の物理的な可搬型記録媒体がある。また、フラッシュメモリ等の半導体メモリやハードディスクドライブを記録媒体２０ｈとして使用してもよい。これらの記録媒体２０ｈは、物理的な形態を持たない搬送波のような一時的な媒体ではない。

【0140】

更に、公衆回線、インターネット、及びLocal Area Network (LAN)等に接続された装置に分析プログラム１００を記憶させてもよい。その場合は、プロセッサ２０ｃがその分析プログラム１００を読み出して実行すればよい。

【0141】

一方、メモリ２０ｂは、Dynamic Random Access Memory (DRAM)等のようにデータを一時的に記憶するハードウェアであって、その上に分析プログラム１００が展開される。

【0142】

プロセッサ２０ｃは、分析装置２０の各部を制御するCentral Processing Unit (CPU)やGraphical Processing Unit (GPU)等のハードウェアである。また、プロセッサ２０ｃは、メモリ２０ｂと協働して分析プログラム１００を実行する。

【0143】

このようにメモリ２０ｂとプロセッサ２０ｃとが協働して分析プログラム１００を実行することにより、分析装置２０の制御部４４（図１４参照）が実現される。その制御部４４には、取得部５１、グラフ生成部５２、削除部５３、エッジ特定部５４、重み算出部５５、類似度算出部５６、及び提示部５７が含まれる。

【0144】

また、記憶部４３（図１４参照）は、記憶装置２０ａとメモリ２０ｂとにより実現される。

【0145】

更に、通信インターフェース２０ｄは、分析装置２０をLANやインターネット等のネットワークに接続するためのNetwork Interface Card (NIC)等のハードウェアである。その通信インターフェース２０ｄにより通信部４１（図１４参照）が実現される。

【0146】

そして、表示装置２０ｅは、図１７のように修正プログラム９を表示するための液晶ディスプレイやタッチパネル等のハードウェアである。その表示装置２０ｅにより表示部４２（図１４参照）が実現される。

【0147】

媒体読取装置２０ｇは、記録媒体２０ｈを読み取るためのCDドライブ、DVDドライブ、及びUSBインターフェース等のハードウェアである。

【符号の説明】

【0148】

１…コンピュータ、２…リポジトリ、４…第１のソースプログラム、４ａ…潜在バグ、５…修正箇所、６…修正ロジック、８…第２のソースプログラム、８ａ…潜在バグ、９…修正プログラム、９ａ…文、２０…分析装置、３１ａ…第１のルートノード、３１ｂ…第１のノード、３１ｘ…有向エッジ、３２ａ…第２のルートノード、３２ｂ…第２のノード、３３…第１のエッジ、４１…通信部、４２…表示部、４３…記憶部、４４…制御部、５１…取得部、５２…グラフ生成部、５３…削除部、５４…エッジ特定部、５５…重み算出部、５６…類似度算出部、５７…提示部、６１…第１の潜在バグ位置情報、６２…第２の潜在バグ位置情報、６３…グラフ構造情報、６３ａ…ノードテーブル、６３ｂ…エッジテーブル、６４…剪定後グラフ構造情報、６５…エッジ情報。

【図1】