特開2024-86585 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ イファ　ユニバーシティ−インダストリー　コラボレーション　ファウンデーションの特許一覧

特開2024-86585機械学習モデルを利用したソフトウェアの変数脆弱点を探知する方法および分析装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024086585

(43)【公開日】2024-06-27

(54)【発明の名称】機械学習モデルを利用したソフトウェアの変数脆弱点を探知する方法および分析装置

(51)【国際特許分類】

G06F 11/36 20060101AFI20240620BHJP

【ＦＩ】

G06F11/36 112

【審査請求】有

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2023184710

(22)【出願日】2023-10-27

(31)【優先権主張番号】10-2022-0176168

(32)【優先日】2022-12-15

(33)【優先権主張国・地域又は機関】KR

(31)【優先権主張番号】10-2023-0007409

(32)【優先日】2023-01-18

(33)【優先権主張国・地域又は機関】KR

(71)【出願人】

【識別番号】518357128

【氏名又は名称】イファユニバーシティ－インダストリーコラボレーションファウンデーション

【氏名又は名称原語表記】ＥＷＨＡＵＮＩＶＥＲＳＩＴＹ－ＩＮＤＵＳＴＲＹＣＯＬＬＡＢＯＲＡＴＩＯＮＦＯＵＮＤＡＴＩＯＮ

【住所又は居所原語表記】５２，Ｅｗｈａｙｅｏｄａｅ－ｇｉｌＳｅｏｄａｅｍｕｎ－ｇｕＳｅｏｕｌ０３７６０，ＲｅｐｕｂｌｉｃｏｆＫｏｒｅａ

(74)【代理人】

【識別番号】110000914

【氏名又は名称】弁理士法人ＷｉｓｅＰｌｕｓ

(72)【発明者】

【氏名】チェ，ビョンジュ

(72)【発明者】

【氏名】パク，ジヒョン

【テーマコード（参考）】

5B042

【Ｆターム（参考）】

5B042GA05

5B042HH42

5B042HH43

5B042MA08

5B042MA14

5B042MC13

5B042MC40

(57)【要約】

【課題】機械学習モデルを利用したソフトウェアの変数脆弱点を探知する方法および分析装置を提供する。
【解決手段】機械学習モデルを利用したソフトウェアの変数脆弱点を探知する方法は、分析装置が分析対象であるプログラムのソースコードの入力を受ける段階、前記分析装置が前記ソースコードを実行しながら生成される実行ログのうち、呼び出し関数、変数名およびコールスタックの関数をそれぞれ一定の識別子で代替して前記実行ログを前処理する段階、前記分析装置が事前学習された第１学習モデルを利用して前記前処理された実行ログを分析して、グローバル変数と呼び出し関数の対それぞれが初期化位置であるかどうかを分類する段階、前記分析装置が事前学習された第２学習モデルを利用して前記前処理された実行ログを分析して、前記グローバル変数の変数値の最高値と最小値を予測する段階、および前記分析装置が前記第１学習モデルが出力する情報および前記第２学習モデルが出力する情報を基準として前記グローバル変数が脆弱であるかどうかを判断する段階を含む。
【選択図】なし

【特許請求の範囲】

【請求項1】

分析装置が分析対象であるプログラムのソースコードの入力を受ける段階；
前記分析装置が前記ソースコードを実行しながら生成される実行ログのうち、呼び出し関数、変数名およびコールスタックの関数をそれぞれ一定の識別子で代替して前記実行ログを前処理する段階；
前記分析装置が事前学習された第１学習モデルを利用して前記前処理された実行ログを分析して、グローバル変数と呼び出し関数の対それぞれが初期化位置であるかどうかを分類する段階；
前記分析装置が事前学習された第２学習モデルを利用して前記前処理された実行ログを分析して、前記グローバル変数の変数値の最高値と最小値を予測する段階；および
前記分析装置が（ｉ）前記第１学習モデルの分類結果により決定される前記グローバル変数の初期化の有無または初期化位置および（ｉｉ）前記第２学習モデルが出力する情報を基準として前記グローバル変数が脆弱であるかどうかを判断する段階を含む、機械学習モデルを利用したソフトウェアの変数脆弱点を探知する方法。

【請求項2】

前記分析装置は前記第２学習モデルが出力する情報を基準として変数の使用の有無または変数値の変化趨勢を決定し、
前記初期化の有無、初期化位置、前記変数の使用の有無および前記変数値の変化趨勢のうち少なくとも一つを利用して前記グローバル変数が脆弱であるかどうかを判断する、請求項１に記載の機械学習モデルを利用したソフトウェアの変数脆弱点を探知する方法。

【請求項3】

前記分析装置は前記グローバル変数脆弱点を（ｉ）変数の使用途中初期化、（ｉｉ）許容範囲を逸脱する変数値および（ｉｉｉ）初期化されなかった変数使用のうちいずれか一つと判断する、請求項１に記載の機械学習モデルを利用したソフトウェアの変数脆弱点を探知する方法。

【請求項4】

前記分析装置は前記実行ログの前処理前に前記ソースコードに対する静的解析を遂行して変数の初期値、関数リストおよび関数間呼び出し関係を抽出する段階をさらに含む、請求項１に記載の機械学習モデルを利用したソフトウェアの変数脆弱点を探知する方法。

【請求項5】

前記分析装置は前記グローバル変数の初期値が存在するが実行途中で初期値が変更され、前記初期値を変更した関数が初期化関数ではない場合、前記グローバル変数の使用途中初期化欠陥と判断する、請求項１に記載の機械学習モデルを利用したソフトウェアの変数脆弱点を探知する方法。

【請求項6】

前記分析装置は実行中前記グローバル変数の変数値が前記グローバル変数の資料型の最高値または最小値を逸脱する場合に欠陥と判断する、請求項１に記載の機械学習モデルを利用したソフトウェアの変数脆弱点を探知する方法。

【請求項7】

前記分析装置は前記グローバル変数が初期化されなかった状態で、初期化関数ではない他の関数によって使われる場合に欠陥と判断する、請求項１に記載の機械学習モデルを利用したソフトウェアの変数脆弱点を探知する方法。

【請求項8】

分析対象であるプログラムのソースコードの入力を受けるインターフェース装置；
グローバル変数の初期化位置を分類する第１学習モデルおよびグローバル変数の最高値と最小値を予測する第２学習モデルを保存する保存装置；および
前記ソースコードを実行しながら生成される実行ログのうち、呼び出し関数、変数名およびコールスタックの関数をそれぞれ一定の識別子で代替して前記実行ログを前処理し、
前記前処理された実行ログを前記第１学習モデルに入力して決定される前記実行ログに含まれたグローバル変数の初期化の有無または初期化位置および
前記前処理された実行ログを前記第２学習モデルに入力して決定される情報を基準として前記グローバル変数が脆弱であるかどうかを判断する演算装置を含む、ソフトウェアの変数脆弱点を探知する分析装置。

【請求項9】

前記演算装置は前記第２学習モデルが出力する情報を基準として変数の使用の有無または変数値の変化趨勢を決定し、
前記初期化の有無、初期化位置、前記変数の使用の有無および前記変数値の変化趨勢のうち少なくとも一つを利用して前記グローバル変数が脆弱であるかどうかを判断する、請求項８に記載のソフトウェアの変数脆弱点を探知する分析装置。

【請求項10】

前記演算装置は前記グローバル変数脆弱点を（ｉ）変数の使用途中初期化、（ｉｉ）許容範囲を逸脱する変数値および（ｉｉｉ）初期化されなかった変数使用のうちいずれか一つと判断する、請求項８に記載のソフトウェアの変数脆弱点を探知する分析装置。

【発明の詳細な説明】

【技術分野】

【0001】

以下で説明する技術はソフトウェアの変数脆弱点を探知する技法に関する。

【0002】

この研究は、韓国政府（ＭＳＩＴ）の情報通信技術企画評価院（ＩＩＴＰ）が研究費を支援して遂行されました（Ｎｏ．ＲＳ－２０２２－００１５５９６６、人工知能融合イノベーション人材開発院（梨花女子大学）、ＮＴＩＳＮｏ．．：１７１１１７４０９０）。

【背景技術】

【0003】

４次産業時代の到来とともに多様な産業分野でソフトウェアの重要性が台頭している。ソフトウェアは設計または具現過程で欠陥が発生する可能性がある。ＣＷＥ（ＣｏｍｍｏｎＷｅａｋｎｅｓｓＥｎｕｍｅｒａｔｉｏｎ）はソフトウェアで発生し得る脆弱点の識別に使われる。ソフトウェアの脆弱点は変数に関連した脆弱点が多くある。

【0004】

ソフトウェアで誤った変数の使用は誤動作を誘発し得る。ローカル変数は変数の値を初期化せずに使う場合、コンパイル段階で欠陥が検出される。しかし、グローバル変数は初期化コードがなくてもコンパイラで初期化させるので欠陥として検出されない。問題状況は特定の初期値があるにも関わらずコンパイラで誤った値で初期化したり、プログラム実行途中で初期化となったりなってはならないのにもかかわらず反対に動作する場合である。ＣＷＥによると、このような変数による脆弱点リストが増加し続けている。

【発明の概要】

【発明が解決しようとする課題】

【0005】

従来のソフトウェアの脆弱点探知道具はソースコードに対する静的解析を遂行する。静的解析で探知されるランタイムエラーは実際の実行に基づいて探知されるものではないので、静的解析は実際の欠陥ではないにもかかわらず欠陥として探知する場合が多い。ソフトウェアの欠陥探知の正確性を高めるためには、実際の実行に基づいた欠陥探知および動的検証が必要である。しかし、動的検証は欠陥探知のための情報収集や実行追跡によりオーバーヘッドが大きい。特に変数による欠陥を探知する場合、該当変数が使われる位置をすべてモニタリングしなければならないので実行オーバーヘッドが非常に大きい。ひいては、従来技法は欠陥が存在しても実行されないと欠陥として探知され難いという根本的な問題点がある。

【課題を解決するための手段】

【0006】

機械学習モデルを利用したソフトウェアの変数脆弱点を探知する方法は、分析装置が分析対象であるプログラムのソースコードの入力を受ける段階、前記分析装置が前記ソースコードを実行しながら実行ログを抽出する段階、前記分析装置が前記実行ログのうち呼び出し関数、変数名およびコールスタックの関数をそれぞれ一定の識別子で代替して前記実行ログを前処理する段階、前記分析装置が事前学習された第１学習モデルを利用して前記前処理された実行ログを分析して、グローバル変数と呼び出し関数の対それぞれが初期化位置であるかどうかを分類する段階、前記分析装置が事前学習された第２学習モデルを利用して前記前処理された実行ログを分析して、前記グローバル変数の変数値の最高値と最小値を予測する段階、および前記分析装置が前記第１学習モデルが出力する情報および前記第２学習モデルが出力する情報を基準として前記グローバル変数が脆弱であるかどうかを判断する段階を含む。

【0007】

ソフトウェアの変数脆弱点を探知する分析装置は、分析対象であるプログラムのソースコードの入力を受けるインターフェース装置、グローバル変数の初期化位置を分類する第１学習モデルおよびグローバル変数の最高値と最小値を予測する第２学習モデルを保存する保存装置、および前記ソースコードを実行しながら生成される実行ログのうち、呼び出し関数、変数名およびコールスタックの関数をそれぞれ一定の識別子で代替して前記実行ログを前処理し、前記前処理された実行ログを前記第１学習モデルに入力して決定される前記実行ログに含まれたグローバル変数の初期化の有無または初期化位置および前記前処理された実行ログを前記第２学習モデルに入力して決定される情報を基準として前記グローバル変数が脆弱であるかどうかを判断する演算装置を含む。

【図面の簡単な説明】

【0008】

【図1】ソフトウェアの変数脆弱点を探知するシステムに対する例である。

【図2】分析モデルの学習過程に対する例である。

【図3】変数の初期化位置を推論する第１学習モデルの性能を評価した結果である。

【図4】変数の最高値および最小値を推論する第２学習モデルの性能を評価した結果である。

【図5】ソフトウェアの変数脆弱点を探知する推論過程に対する例である。

【図6】分析装置で分析モデルを利用して欠陥を分析する時に使う変数に対する情報の例である。

【図7】ターゲットプログラムの変数情報を利用して脆弱点による欠陥を判断する過程の例である。

【図8】ソフトウェアの変数脆弱点を探知する分析装置に対する例である。

【発明を実施するための形態】

【0009】

以下で説明する技術は、ソフトウェアで変数値による欠陥可能性乃至脆弱点を探知する技法である。

【0010】

以下、ソフトウェアの変数脆弱点を探知する装置を分析装置と命名する。分析装置は入力されるソフトウェアコードを分析して欠陥を探知する装置であって、多様な形態で具現され得る。例えば、分析装置はサーバー、ＰＣ、スマート機器、脆弱点探知のためのプログラムがエンベッディングされたチップセットなどの多様な形態であり得る。

【0011】

分析装置は機械学習モデルを利用して変数脆弱点を探知する。機械学習は人工知能の一分野で、コンピュータが学習できるようにアルゴリズムを開発する分野を意味する。機械学習モデルはデシジョンツリー、ランダムフォレスト（ｒａｎｄｏｍｆｏｒｅｓｔ）、ＫＮＮ（Ｋ－ｎｅａｒｅｓｔｎｅｉｇｈｂｏｒ）、ナイーブベイズ（ＮａｉｖｅＢａｙｅｓ）、ＳＶＭ（ｓｕｐｐｏｒｔｖｅｃｔｏｒｍａｃｈｉｎｅ）、人工ニューラルネットワーク（ａｒｔｉｆｉｃｉａｌｎｅｕｒａｌｎｅｔｗｏｒｋ）などの多様な類型のモデルがある。

【0012】

以下、ソフトウェアの変数脆弱点を探知する機械学習モデルを分析モデルと命名する。分析モデルは多様な機械学習方法論のうちいずれか一つで具現され得る。

【0013】

図１は、ソフトウェアの変数脆弱点を探知するシステム１００に対する例である。図１で分析装置１３０、１５０が変数脆弱点を探知する。図１で、分析装置はサーバー１３０およびコンピュータ端末１５０の形態で図示した。

【0014】

ソースコード提供装置１１０は開発者がコーディングした特定プログラムのソースコードを提供する。ソースコード提供装置１１０は開発者端末またはソースコードを保存するデータベース乃至サーバーのような装置であり得る。

【0015】

実行ログ提供装置１２０は、プログラムソースコードの伝達を受けて該当プログラムを実行しながら実行ログを生成する。実行ログ提供装置１２０は該当プログラムが動作する環境を提供して実行時間により実行ログを生成する。

【0016】

分析装置１３０、１５０はソースコード提供装置１１０から分析対象であるプログラムのソースコードの入力を受ける。分析装置１３０、１５０は実行ログ提供装置１２０から分析対象であるプログラムの実行ログの入力を受ける。

【0017】

分析装置１３０、１５０はソースコードおよび実行ログを分析して変数脆弱点を探知する。分析装置１３０、１５０は分析モデルを活用して一定の変数情報を抽出する。変数情報は変数初期化位置、実行過程中の変数の最高値および最小値などを含む。分析装置１３０、１５０は抽出した変数情報を基準として分析対象であるプログラムで変数脆弱点乃至欠陥可能性を導き出す。分析装置１３０、１５０は分析した変数脆弱点を出力したり、他の端末に伝達することができる。

【0018】

以下、研究者が変数脆弱点を探知する分析モデルを構築した過程を説明する。

【0019】

研究者は誤った変数値の使用による脆弱点を分類して欠陥の類型を下記の表１のように定義した。

【0020】

【表1】

【0021】

Ｆ０１ＵＩＮＩＴ＿ＶＡＲは初期化されなかった変数を使用して発生する欠陥である。初期化されなかったローカル変数はほとんどコンパイラで探知され、グローバル変数はコンパイラで初期化される。したがって、ＵＩＮＩＴ＿ＶＡＲ欠陥はローカル変数やグローバル変数が正しい値で初期化されなかった場合の欠陥である。またＵＩＮＩＴ＿ＶＡＲ欠陥は、グローバル変数の初期化コードが存在しても関数の呼び出し順序が間違うなどのように、初期化される前に使われる場合の欠陥も含む。Ｆ０２ＩＮＶＡＬＩＤ＿ＩＮＩＴは、変数の初期化関数ではない他の関数で変数を使用していた途中で変数の値が初期値に変更される欠陥である。Ｆ０３ＯＵＴ＿ＯＦ＿ＢＯＵＮＤは、変数の値が許容された範囲を逸脱する欠陥である。この時の許容範囲は変数の資料型による範囲だけでなく、ソースコードの分析時に抽出される変数の許容範囲を含む。

【0022】

分析モデルの構築過程を説明する。分析モデル学習は学習装置が遂行すると説明する。学習装置はデータ処理および機械学習モデルの学習過程の遂行が可能なコンピュータ装置を意味する。

【0023】

研究者は分析モデルの学習のために学習データを設けた。学習データは特定の同一プログラムに対して設けられ得る。すなわち、分析モデルは特定プログラムに特異的に設けられ得る。学習データはプログラムに対するソースコードおよび実行ログを含むことができる。

【0024】

脆弱点を探知しようとする対象はプログラムで使われるローカル変数とグローバル変数をすべて含む。表１で定義した欠陥を探知するために、各変数に対して（ｉ）変数の最高値および最小値、（ｉｉ）初期値および（ｉｉｉ）初期値に変更するようにする初期化関数が定義されなければならない。

【0025】

図２は、分析モデルの学習過程２００に対する例である。

【0026】

学習装置は学習のためのプログラムに対して静的解析（ｓｔａｔｉｃａｎａｌｙｓｉｓ）を遂行する（２１０）。学習装置はプログラムのソースコードを静的解析して変数に対する情報を抽出する。

【0027】

学習装置は学習のためのプログラムのソースコードを静的解析して、変数リスト、各変数の初期値、最高値、最小値を変数情報として抽出する。また、学習装置は実行分析のために変数を使用する関数リストと関数間呼び出し関係を抽出する。静的解析で定義されなかった変数の最高値、最小値および初期化関数リストは実行ログを学習する時に定義される。

【0028】

以後、学習装置はプログラムを実行して収集された実行ログを利用した動的検証を遂行する（２２０）。動的検証は実行ログを基準として変数脆弱点を探知する分析モデルを構築する過程である。分析モデルは脆弱点探知対象である初期化関数の位置を判定するモデルと関数で使われる変数値を推論するモデルを含む。

【0029】

学習装置は、静的解析後にはプログラムを実行して実行ログを収集する（２２１）。学習装置はプログラムが実行される間、モニタリング対象変数に接近して呼び出し関数の位置、変数名、接近前／後の変数値、コールスタックを抽出して実行ログとして収集する。

【0030】

実行ログは学習に直接利用するのが難しいローデータ（ｒａｗｄａｔｅ）であるので、一定の前処理が必要である。学習装置は収集した実行ログを学習に活用できるデータに前処理（一般化）する（２２２）。前処理過程で、学習装置は初期実行ログで呼び出し関数、変数名およびコールスタックの関数をそれぞれ関数ＩＤおよび変数ＩＤで代替する。

【0031】

変数の初期化に関連した脆弱点を判定するための基準は、変数の初期化の有無、変数の値の変更および呼び出し関数と関連がある。研究者は変数を使用中の関数（呼び出し関数）が変数の値を初期化させる関数（初期化関数）であるかどうかを判断するために、機械学習モデル（第１学習モデル）を利用した。第１学習モデルは｛グローバル変数、呼び出し関数｝の対が初期化関数であるか否かを分類する。

【0032】

学習装置は前処理された実行ログを利用して、変数の初期化に関連した脆弱点判断のための初期化関数の有無を推論する第１学習モデルの学習を遂行する（２２３）。第１学習モデルは前処理された実行ログの入力を受けて｛グローバル変数、呼び出し関数｝の対が初期化関数であるかどうかを分類する。これを通じて第１学習モデルは変数の初期化位置を推論する。

【0033】

研究者は第１学習モデルでデシジョンツリー技法を使った。デシジョンツリー技法はＩＤ３、Ｃ４．５、ＣＡＲＴ、アンサンブルアルゴリズムなどの多様なアルゴリズムがある。

【0034】

研究者は初期化関数の予測と類似するデータセットであるＮＡＳＡＮｅａｒｅｓｔＯｂｊｅｃｔデータセットを利用して第１学習モデルの性能を評価した。研究者は多様な類型のデシジョンツリーを構築して性能を評価した。

【0035】

図３は、変数の初期化位置を推論する第１学習モデルの性能を評価した結果である。図３のように、研究者が構築したモデルのうちＲＦ（ＲａｎｄｏｍＦｏｒｅｓｔ）技法が最も高い性能を見せた。このため、研究者は第１学習モデルとしてＲＦを使った。ただし、第１学習モデルはデシジョンツリーの他に、他の類型の学習モデルが活用されてもよい。

【0036】

また、研究者は変数値が適切であるかを判定するために、変数値許容範囲の有無を判定する別途の機械学習モデル（第２学習モデル）を構築した。第２学習モデルは特定変数の最高値および最小値を導き出す。

【0037】

学習データは実行ログで変数値の変化情報である。学習装置は前処理された実行ログを利用して、第２学習モデルが特定変数の変化推移を推論して該当変数の最高値および最小値を導き出すように学習過程を遂行する（２２４）。研究者は第２学習モデルとして回帰分析技法を利用した。回帰基盤学習技法は線形回帰（ｌｉｎｅａｒ）、リッジ回帰（ｒｉｄｇｅ）。ロジスティック回帰（ｌｏｇｉｓｔｉｃ）、多項式回帰（ｐｏｌｙｎｏｍｉａｌ）のような多様な技法がある。

【0038】

研究者は多様な回帰分析モデルを構築して性能を評価した。図４は、変数の最高値および最小値を推論する第２学習モデルの性能を評価した結果である。図４のように、多項式回帰分析の性能が最も高かった。研究者は第２学習モデルとして多項式回帰分析を使った。研究者はｓｃｉｋｉｔ－ｌｅａｒｎのｐｏｌｙｎｏｍｉａｌＦｅａｔｕｒｅｓクラスにデータ変換後、ＬｉｎｅａｒＲｅｇｒｅｓｓｉｏｎを適用して第２学習モデルを構築した。

【0039】

図５は、ソフトウェアの変数脆弱点を探知する推論過程３００に対する例である。

【0040】

分析装置は分析対象であるターゲットプログラムのソースコードの入力を受ける（３１０）。

【0041】

分析装置はソースコードで分析に不要なコード（ａｎｎｏｔａｔｉｏｎｓ、ｂｌａｎｋｌｉｎｅなど）を除去することができる。

【0042】

分析装置はターゲットプログラムに対して静的解析を遂行できる（３２０）。分析装置はターゲットプログラムのソースコードを静的解析して変数リストを抽出することができる。また、分析装置は実行分析のために変数を使用する関数リストと関数間呼び出し関係を抽出することができる。一方、ターゲットプログラムが学習過程で使われたプログラムと同じプログラムであれば、学習過程で導き出した静的解析結果を活用してもよい。この場合、分析装置が別途に静的解析を遂行しなくてもよい。すなわち、分析装置がターゲットプログラムのソースコードとともに変数リスト、関数リストおよび関数間呼び出し関係の入力を受けてもよい。

【0043】

分析装置はプログラムを実行して収集された実行ログを利用した動的検証を遂行する（３３０）。分析装置はプログラムを実行しながら実行ログを収集する（３３１）。分析装置はプログラムが実行される間、モニタリング対象変数に接近して呼び出し関数の位置、変数名、接近前／後の変数値、コールスタックを抽出して実行ログとして収集する。分析装置は収集した実行ログを学習に活用できるデータに前処理（一般化）する（３３２）。前処理過程で学習装置は初期実行ログで呼び出し関数、変数名およびコールスタックの関数をそれぞれ関数ＩＤおよび変数ＩＤで代替する。

【0044】

分析装置は事前に学習された第１学習モデルを利用して前処理された実行ログを分析して、変数が正しい位置で初期化されたかを判断することができる（３３３）。分析装置は第１学習モデルの分類結果を基準として特定変数（グローバル変数）の初期化の有無または／および初期化位置を決定することができる。

【0045】

分析装置は事前に学習された第２学習モデルを利用して実行過程で変数の値が変数の最高値と最小値以内の範囲に該当するかを判断する（３３４）。分析装置は第１学習モデルの出力結果を基準として変数の使用の有無、変数値が許容範囲に属するのか、変数値の変化の趨勢などを決定することができる。

【0046】

分析装置は変数初期化位置、初期化情報、変数使用情報、変数値変化情報、変数の許容範囲などを基準として特定変数脆弱点の有無を分析する。これを通じて分析装置はターゲットプログラムで欠陥の探知を遂行する（３３５）。具体的な欠陥探知の例は後述する。

【0047】

前述した過程を通じて、分析装置はターゲットプログラムのソースコードおよび実行ログを分析して変数に対する情報を導き出す。図６は、分析装置で分析モデルを利用して欠陥を分析する時に使う変数に対する情報の例である。

【0048】

分析モデルを利用して導き出す変数に対する情報に対する例である。図６は、多数のフラグ（ｆｌａｇ）で構成された変数情報に対する例である。変数情報は（ｉ）初期化情報、（ｉｉ）変数使用情報、（ｉｉｉ）変数値変化趨勢情報および（ｉｖ）変数値増減パターン情報を含む。初期化情報はコンパイラで初期化の有無、初期化関数で初期化の有無および変数宣言時の初期値存在の有無などを含むことができる。変数使用情報は変数の使用の有無、使われる変数の使用目的（ｒｅａｄ、ｗｒｉｔｅまたはｒｅａｄ＆ｗｒｉｔｅ）等を含むことができる。変数値変化趨勢情報は変数値の変化の有無、変数値の増減の有無などを含むことができる。変数値増減パターン情報はパターンの変化の有無、変数値の継続した増加、変数値の継続した減少、一定区間で変数値の波動（ｆｌｕｃｔｕａｔｉｏｎ）の変化などを含むことができる。

【0049】

分析装置はターゲットプログラムでターゲットプログラムのソースコードを分析した結果およびターゲットプログラムの実行ログを利用して抽出した変数情報を利用して変数脆弱点を探知する（３３５）。分析装置はターゲットプログラムの実行開始から終了まで変数が実行される時に残した実行ログから継続して変数情報を抽出してこれを基準として変数脆弱点を探知することができる。

【0050】

図７は、ターゲットプログラムの変数情報を利用して脆弱点による欠陥を判断する過程の例である。分析装置が判断する変数脆弱点類型は（ｉ）変数の使用途中で初期化、（ｉｉ）許容範囲を逸脱する変数値および（ｉｉｉ）初期化されなかった変数使用のうちいずれか一つである。

【0051】

分析装置は変数の初期値が存在するがグローバル変数の使用途中で変更された値が初期値であり、呼び出した関数が初期化関数ではない場合にはグローバル変数の使用途中の初期化欠陥と判断する。

【0052】

欠陥探知対象を抽出する時、グローバル変数の名前と資料型、初期値を抽出するが、分析装置は実行中変数値が抽出された資料型の最高値／最小値を逸脱する場合には変数の範囲を逸脱した欠陥と判断する。また、分析装置はグローバル変数の値が継続して増加あるいは減少のみしながら第２学習モデルから導き出された変数の最高値と最小値範囲を逸脱する場合にも変数の範囲を逸脱した欠陥と判断する。

【0053】

分析装置はすべての実行が完了した以後にもグローバル変数の変数値増減パターン情報が継続して増加または減少に設定されているのであれば、変数の使用途中初期化がされていないものと見ることができ、長時間使用時変数の値の範囲を逸脱する可能性があるので、これを変数の範囲を逸脱した欠陥の候補と判断する。

【0054】

分析装置は変数の値が宣言と同時に初期化がされていない状態で、初期化関数ではない他の関数によって使われた時を初期化していない変数使用欠陥と判断することができる。分析装置は最初に使われた位置が変数に対する値を読み取っていく（ｒｅａｄ）場合には、すぐに初期化していない変数使用欠陥と判断する。分析装置は変数に値を書き込む（ｗｒｉｔｅ）場合には該当変数に値を書き込んだ関数が初期化関数として学習され得るため、初期化していない変数使用欠陥候補と判断する。

【0055】

研究者はＣ言語とパイソンを利用して前述した分析モデルを構築した。研究者は構築した分析モデルおよび変数脆弱点探知の性能を検証した。

【0056】

検証実験に使われたアプリケーションは下記の表２の通りである。研究者はリナックス（登録商標）で広く知られている７個のアプリケーションを対象に実験した。学習に使われた実行ログは、各アプリケーションに対してリナックス（登録商標）マニュアルページのサンプルスクリプトとＳＡＲＤ（ＳｏｆｔｗａｒｅＡｓｓｕｒａｎｃｅＲｅｆｅｒｅｎｃｅＤａｔａｓｅｔ）で提供するテストケース、Ｌｉｎｕｘ（登録商標）ＴｅｓｔＰｒｏｊｅｃｔ（ＬＴＰ）のテストケースを動作させて収集した。

【0057】

【表2】

【0058】

研究者は変数による脆弱点を探知するために、アプリケーションに人為的に欠陥を注入した。研究者は従来研究ｃｌａｎｇ－ｓｆｉ（Ｇａｂｏｒｅｔａｌ、「Ｈｉｇｈ－ＡｃｃｕｒａｃｙＳｏｆｔｗａｒｅＦａｕｌｔＩｎｊｅｃｔｉｏｎｉｎＳｏｕｒｃｅＣｏｄｅｗｉｔｈＣｌａｎｇ．「Ｉｎ２０１９ＩＥＥＥ２４ｔｈＰａｃｉｆｉｃＲｉｍＩｎｔｅｒｎａｔｉｏｎａｌＳｙｍｐｏｓｉｕｍｏｎＤｅｐｅｎｄａｂｌｅＣｏｍｐｕｔｉｎｇ（ＰＲＤＣ）、ｐｐ．７５－７５０９．）で活用されたデータを利用した。ｃｌａｎｇ－ｓｆｉで注入可能な欠陥のうち研究者が提案した方式に関連した変数脆弱点に対する欠陥の類型は下記の表３の通りである。

【0059】

【表3】

【0060】

研究者は表２のアプリケーションでローカル変数とグローバル変数をそれぞれ抽出し、抽出された各位置に表３の欠陥の類型を注入した。ＷＶＡＶ（Ｗｒｏｎｇｖａｌｕｅａｓｓｉｇｎｅｄｔｏｖａｒｉａｂｌｅ）欠陥の類型はｃｌａｎｇ－ｓｆｉでＢｏｏｌｅａｎタイプである場合にトグルさせ、その他の場合には０ｘＦＦ値をエラー値として注入する。しかし、より多様な場合を検証するために研究者はｃｌａｎｇ－ｓｆｉで注入する類型をＷＶＡＶ＿１にし、該当変数のタイプに対する最高値と最小値を注入する場合をＷＶＡＶ＿２にし、該当変数が有することができる値でランダムに選択した値で注入する場合をＷＶＡＶ＿３と定義した。

【0061】

研究者は提案した分析モデル基盤の変数脆弱点を探知技法（提案技術）の性能を従来分析道具の性能と比較した。比較に使った従来分析道具は下記の表４の通りである。

【0062】

【表4】

【0063】

研究者は特に変数脆弱点を探知する性能を比較した。研究者はコード類似性を比較して脆弱点を探知する技法とパターン基盤で脆弱点を探知する技法を利用した道具ＶＵＤＤＹ、ＳｙＳｅＶＲ、ＣｐｐＣｈｅｃｋ、ＣｏｎｔｒｏｌＦｌａｇに対して実験を進めてその結果を比較した。ＶＵＤＤＹとＣｐｐＣｈｅｃｋはＡＩ／ＭＬ技法が適用されていない道具であり、ＳｙＳｅＶＲとＣｏｎｔｒｏｌＦｌａｇはＡＩ／ＭＬ基盤道具である。性能検証結果は下記の表５のように示された。

【0064】

【表5】

【0065】

研究者は欠陥の類型別に偽陽性率、正確度、精密度、変数脆弱点探知率を評価した。提案技術は偽陽性率、正確度、精密度および変数脆弱点探知率がそれぞれ０％、７７．５５％、１００％および７７．５５％と示された。残りの道具は変数脆弱点探知率が６％～１８．５％であり、提案技術より低く示された。

【0066】

図８は、ソフトウェアの変数脆弱点を探知する分析装置４００に対する例である。分析装置４００は図１の分析装置（１３０または１５０）に該当する装置である。分析装置４００は前述した分析モデルを利用してソフトウェアの変数欠陥を探知する。分析装置４００は物理的に多様な形態で具現され得る。例えば、分析装置４００はＰＣ、スマート機器、ネットワーク上のサーバー、データ処理専用チップセットなどの形態を有することができる。

【0067】

分析装置４００は保存装置４１０、メモリ４２０、演算装置４３０、インターフェース装置４４０、通信装置４５０および出力装置４６０を含むことができる。

【0068】

保存装置４１０は前述した分析モデルを保存することができる。分析モデルは変数初期化位置を判定する第１学習モデルおよび実行過程で変数値（最高値および最小値）を予測する第２学習モデルを含む。前述した通り、第１学習モデルは変数を使用中の関数が変数の値を初期化させる関数（初期化関数）であるかどうかを分類することができる。第２学習モデルはグローバル変数の変数値に対する最高値および最小値を出力することができる。

【0069】

保存装置４１０は分析対象であるターゲットプログラムのソースコードを静的解析するプログラム乃至コードを保存することができる。

【0070】

保存装置４１０はソースコードに対する実行ログを生成するプログラム乃至コードを保存することができる。

【0071】

保存装置４１０は実行ログを一定に前処理するプログラム乃至コードを保存することができる。

【0072】

保存装置４１０は分析モデルの出力情報（初期化位置、変数値情報など）を基準として変数欠陥乃至欠陥候補を判定するプログラム乃至コードを保存することができる。この過程は図７で説明した通りである。

【0073】

保存装置４１０はターゲットプログラムのソースコードを保存することができる。

【0074】

保存装置４１０はターゲットプログラムの実行ログを保存することができる。

【0075】

メモリ４２０は分析装置４００がターゲットプログラムの変数脆弱点を探知する過程で生成されるデータおよび情報などを保存することができる。

【0076】

インターフェース装置４４０は外部から一定の命令およびデータの入力を受ける装置である。

【0077】

インターフェース装置４４０は物理的に連結された入力装置または外部保存装置からターゲットプログラムのソースコードの入力を受けることができる。

【0078】

インターフェース装置４４０はソース装置からソースコードの入力を受けることができる。ソース装置はソースコードが実行され得るコンピューティング装置または分析対象であるソースコードを保存する別途の保存装置であり得る。

【0079】

インターフェース装置４４０はターゲットプログラムの実行ログの入力を受けることもできる。インターフェース装置４４０はソース装置から実行ログの入力を受けることができる。インターフェース装置４４０はソースコードを実行するソース装置から実行ログの入力を受けることができる。

【0080】

通信装置４５０は有線または無線ネットワークを通じて一定の情報を受信し伝送する構成を意味する。

【0081】

通信装置４５０は外部客体からターゲットプログラムのソースコードを受信することができる。通信装置４５０はソース装置からソースコードを受信することができる。

【0082】

通信装置４５０はターゲットプログラムの実行ログを受信することができる。

【0083】

通信装置４５０はソース装置から実行ログを受信することができる。通信装置４５０はソースコードを実行するソース装置から実行ログを受信することができる。

【0084】

通信装置４５０はターゲットプログラムに対する変数脆弱点探知結果を外部客体に送信することができる。

【0085】

さらに、インターフェース装置４４０は通信装置４５０から受信するデータの伝達を受ける構成であってもよい。

【0086】

出力装置４６０は一定の情報を出力する装置である。出力装置４６０はデータ処理過程に必要なインターフェース、分析結果などを出力することができる。出力装置４６０は欠陥探知結果を出力することができる。

【0087】

演算装置４３０はターゲットプログラムのソースコードに対する静的解析を遂行できる。これを通じて演算装置４３０は脆弱点探知対象である変数リスト、関数リスト、関数の呼び出し関係を抽出することができる。

【0088】

演算装置４３０はターゲットプログラムのソースコードを実行しながら実行ログを抽出することができる。

【0089】

演算装置４３０はターゲットプログラムが実行される間、モニタリング対象変数に接近して呼び出し関数の位置、変数名、接近前／後の変数値、コールスタックを抽出して実行ログとして収集する。

【0090】

演算装置４３０は収集した実行ログを学習に活用できるデータに前処理することができる。前処理は実行ログで呼び出し関数、変数名およびコールスタックの関数をそれぞれ関数ＩＤおよび変数ＩＤで代替する過程である。欠陥探知過程の前処理は学習過程の前処理と同一に進行される。

【0091】

演算装置４３０は第１学習モデルを利用して前処理された実行ログを分析する。演算装置４３０は第１学習モデルを通じて変数初期化位置を判断することができる。第１学習モデルは特定変数の初期化の有無乃至初期化位置を出力することができる。第１学習モデルは前処理された実行ログの入力を受けて実行ログのうち｛グローバル変数、呼び出し関数｝の対それぞれが初期化関数であるかどうかを分類する。

【0092】

演算装置４３０は第２学習モデルを利用して前処理された実行ログを分析する。演算装置４３０は第２学習モデルを通じて実行過程で特定変数の最高値および最小値を抽出することができる。演算装置４３０は第２学習モデルが出力する情報を基準として変数の使用の有無または変数値の変化趨勢を決定することができる。

【0093】

第１学習モデルと第２学習モデルを利用して抽出する情報は実行ログで抽出した変数情報である。実行ログで抽出した変数情報は（ｉ）初期化情報、（ｉｉ）変数使用情報、（ｉｉｉ）変数値変化趨勢情報および（ｉｖ）変数値増減パターン情報を含むことができる。

【0094】

演算装置４３０は実行ログで抽出した変数情報を基準として変数脆弱点を判断することができる。判定過程は図７で説明した通りである。

【0095】

演算装置４３０はグローバル変数脆弱点を（ｉ）変数の使用途中初期化、（ｉｉ）許容範囲を逸脱する変数値および（ｉｉｉ）初期化されなかった変数使用のうちいずれか一つと判断することができる。

【0096】

演算装置４３０はデータを処理し、一定の演算を処理するプロセッサ、ＡＰ、プログラムがエンベデッドされたチップのような装置であり得る。

【0097】

また、前述したようなプログラム変数脆弱点乃至欠陥探知方法は、コンピュータで実行され得る実行可能なアルゴリズムを含むプログラム（またはアプリケーション）で具現され得る。前記プログラムは一時的または非一時的読み取り可能媒体（ｎｏｎ－ｔｒａｎｓｉｔｏｒｙｃｏｍｐｕｔｅｒｒｅａｄａｂｌｅｍｅｄｉｕｍ）に保存されて提供され得る。

【0098】

非一時的読み取り可能媒体とは、レジスタ、キャッシュ、メモリなどのように、短い瞬間の間データを保存する媒体ではなく半永久的にデータを保存し、機器によって読み取り（ｒｅａｄｉｎｇ）が可能な媒体を意味する。具体的には、前述した多様なアプリケーションまたはプログラムはＣＤ、ＤＶＤ、ハードディスク、ブルーレイディスク、ＵＳＢ、メモリカード、ＲＯＭ（ｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ）、ＰＲＯＭ（ｐｒｏｇｒａｍｍａｂｌｅｒｅａｄｏｎｌｙｍｅｍｏｒｙ）、ＥＰＲＯＭ（ＥｒａｓａｂｌｅＰＲＯＭ、ＥＰＲＯＭ）またはＥＥＰＲＯＭ（ＥｌｅｃｔｒｉｃａｌｌｙＥＰＲＯＭ）またはフラッシュメモリなどのような非一時的読み取り可能媒体に保存されて提供され得る。

【0099】

一時的読み取り可能媒体はスタティックラム（ＳｔａｔｉｃＲＡＭ、ＳＲＡＭ）、ダイナミックラム（ＤｙｎａｍｉｃＲＡＭ、ＤＲＡＭ）、シンクロナスディーラム（ＳｙｎｃｈｒｏｎｏｕｓＤＲＡＭ、ＳＤＲＡＭ）、２倍速ＳＤＲＡＭ（ＤｏｕｂｌｅＤａｔａＲａｔｅＳＤＲＡＭ、ＤＤＲＳＤＲＡＭ）、増強型ＳＤＲＡＭ（ＥｎｈａｎｃｅｄＳＤＲＡＭ、ＥＳＤＲＡＭ）、同期化ＤＲＡＭ（ＳｙｎｃｌｉｎｋＤＲＡＭ、ＳＬＤＲＡＭ）および直接ラムバスラム（ＤｉｒｅｃｔＲａｍｂｕｓＲＡＭ、ＤＲＲＡＭ）のような多様なＲＡＭを意味する。

【0100】

本実施例および本明細書に添付された図面は前述した技術に含まれる技術的思想の一部を明確に示しているものに過ぎず、前述した技術の明細書および図面に含まれた技術的思想の範囲内で当業者が容易に類推できる変形例と具体的な実施例はすべて前述した技術の権利範囲に含まれるのが自明であると言える。

【図1】