特開2024-47943 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 楽天株式会社の特許一覧

特開2024-47943情報処理装置、情報処理方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024047943

(43)【公開日】2024-04-08

(54)【発明の名称】情報処理装置、情報処理方法およびプログラム

(51)【国際特許分類】

G06F 8/73 20180101AFI20240401BHJP

G06N 20/00 20190101ALI20240401BHJP

【ＦＩ】

G06F8/73

G06N20/00

【審査請求】有

【請求項の数】12

【出願形態】ＯＬ

(21)【出願番号】P 2022153722

(22)【出願日】2022-09-27

(11)【特許番号】

(45)【特許公報発行日】2024-03-15

(71)【出願人】

【識別番号】399037405

【氏名又は名称】楽天グループ株式会社

(74)【代理人】

【識別番号】100109380

【弁理士】

【氏名又は名称】小西恵

(74)【代理人】

【識別番号】100109036

【弁理士】

【氏名又は名称】永岡重幸

(72)【発明者】

【氏名】ロヨラパブロ

(72)【発明者】

【氏名】ラーマンエムディモスタフィズ

(72)【発明者】

【氏名】蛭子 ▲たく▼磨

(72)【発明者】

【氏名】コンダパカマノゥチ

(72)【発明者】

【氏名】アブロールサティアン

【テーマコード（参考）】

5B376

【Ｆターム（参考）】

5B376BB03

5B376DA22

(57)【要約】（修正有）

【課題】コードに関連する文書化を自動的かつ高精度に実行する情報処理装置、情報処理方法およびプログラムを提供する。
【解決手段】コード文書化装置１は、コード変更および当該コード変更に対応するメッセージの対をそれぞれ有する複数のノードからグラフを生成するグラフ生成部と、グラフ生成部が生成したグラフの複数のノードのそれぞれについて特徴ベクタを機械学習する第１の学習部と、第１の学習部により特徴ベクタが機械学習されたグラフを入力として、機械学習モデルを機械学習させる第２の学習部と、第２の学習部により機械学習させた学習済みの機械学習モデルに、メッセージが未知であるノードを入力して、当該ノードに対応するメッセージを生成するメッセージ生成部と、を備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

コード変更および当該コード変更に対応するメッセージの対をそれぞれ有する複数のノードからグラフを生成するグラフ生成部と、
前記グラフ生成部により生成された前記グラフの前記複数のノードのそれぞれについて特徴ベクタを機械学習する第１の学習部と、
前記第１の学習部により前記特徴ベクタが機械学習された前記グラフを入力として、機械学習モデルを機械学習させる第２の学習部と、
前記第２の学習部により機械学習させた学習済みの前記機械学習モデルに、前記メッセージが未知であるノードを入力して、当該ノードに対応するメッセージを生成するメッセージ生成部と、
を備えることを特徴とする情報処理装置。

【請求項2】

前記第１の学習部は、前記グラフの前記複数のノードのそれぞれの前記コード変更を入力として、半教師あり学習により、前記複数のノードのそれぞれの特徴ベクタを機械学習する
ことを特徴とする請求項１に記載の情報処理装置。

【請求項3】

前記第２の学習部は、前記グラフの前記複数のノードのそれぞれの前記コード変更および前記メッセージの対を教師データとして、前記機械学習モデルを機械学習させる
ことを特徴とする請求項１に記載の情報処理装置。

【請求項4】

前記第２の学習部は、前記グラフの前記複数のノードのそれぞれの前記コード変更の特徴ベクタのコード特徴空間におけるアラインメントを、前記コード変更に対応する前記メッセージの特徴ベクタで補正するよう、前記機械学習モデルを機械学習させる
ことを特徴とする請求項１に記載の情報処理装置。

【請求項5】

前記第２の学習部は、所定の損失関数を用いて、前記所定の損失関数の損失がより小さくなるよう、前記機械学習モデルを機械学習させる
ことを特徴とする請求項１に記載の情報処理装置。

【請求項6】

前記第２の学習部は、前記グラフの前記複数のノードの前記コード変更の特徴ベクタと、前記コード変更に対応する前記メッセージの特徴ベクタとの間の損失を算出し、当該損失がより小さくなるよう、前記機械学習モデルを機械学習させる
ことを特徴とする請求項５に記載の情報処理装置。

【請求項7】

前記グラフ生成部は、前記グラフの前記複数のノードのうち、コード変更における依存関係を有するノード間をエッジにより接続し、前記エッジが前記ノード間の依存関係における距離を示すよう、前記グラフを生成する
ことを特徴とする請求項１に記載の情報処理装置。

【請求項8】

前記グラフ生成部は、前記エッジが、ソースノードからデスティネーションノードへのシグナルの伝搬方向を示すよう、前記グラフを有向グラフとして生成する
ことを特徴とする請求項７に記載の情報処理装置。

【請求項9】

前記第１の学習部は、前記グラフの前記複数のノードのそれぞれをコード特徴空間上にマッピングし、前記複数のノードのそれぞれの特徴ベクタを、前記コード特徴空間で初期化する
ことを特徴とする請求項１に記載の情報処理装置。

【請求項10】

前記第１の学習部は、前記グラフに対して、前記メッセージが未知であるノードを付加し、前記メッセージが未知であるノードが付加された前記グラフの各ノードの特徴ベクタを、前記コード空間で初期化する
ことを特徴とする請求項９に記載の情報処理装置。

【請求項11】

前記第１の学習部は、前記グラフの各ノードの特徴ベクタを、第１の機械学習モデルを用いて機械学習し、
前記第２の学習部は、前記第１の機械学習モデルとは異なる第２の機械学習モデルを機械学習させる
ことを特徴とする請求項１に記載の情報処理装置。

【請求項12】

情報処理装置が実行する情報処理方法であって、
コード変更および当該コード変更に対応するメッセージの対をそれぞれ有する複数のノードからグラフを生成するステップと、
生成された前記グラフの前記複数のノードのそれぞれについて特徴ベクタを機械学習するステップと、
前記特徴ベクタが機械学習された前記グラフを入力として、機械学習モデルを機械学習させるステップと、
機械学習済みの前記機械学習モデルに、前記メッセージが未知であるノードを入力して、当該ノードに対応するメッセージを生成するステップと、
を含むことを特徴とする情報処理方法。

【請求項13】

情報処理をコンピュータに実行させるための情報処理プログラムであって、該プログラムは、前記コンピュータに、
コード変更および当該コード変更に対応するメッセージの対をそれぞれ有する複数のノードからグラフを生成するグラフ生成処理と、
前記グラフ生成処理により生成された前記グラフの前記複数のノードのそれぞれについて特徴ベクタを機械学習する第１の学習処理と、
前記第１の学習処理により前記特徴ベクタが機械学習された前記グラフを入力として、機械学習モデルを機械学習させる第２の学習処理と、
前記第２の学習処理により機械学習させた学習済みの前記機械学習モデルに、前記メッセージが未知であるノードを入力して、当該ノードに対応するメッセージを生成するメッセージ生成処理、
を含む処理を実行させるためのものであることを特徴とする情報処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、情報処理方法およびプログラムに関し、特に、機械学習によりコードに関連した文書化を実行するための技術に関する。

【背景技術】

【0002】

ソフトウエアに求められる機能の多様化は、ソフトウエア開発の規模を拡大させるとともに、ソフトウエア開発を複雑化させている。
さらに、既存のソフトウエアには恒常的に新たな機能や機能拡張が求められており、これらの新機能や機能拡張は、より迅速に市場にリリースされなければならない。
このため、近年のソフトウエア開発はよりオープン化されており、１つのソフトウエア開発プロジェクトに多数かつ多様な開発者が分散環境において協調して関与する状況を生じさせている。

【0003】

このように、多数かつ多様な開発者が分散環境において協調的に関与するソフトウエア開発の状況下においては、ソースコードの変更や追加に関連して、ソースコードの当該変更や追加の内容（仕様）を自然言語で記述する文書化を行って、多数の開発者間で情報を共有することがとりわけ不可欠である。この文書化は、例えば、ソースコードとは別途の設計文書の作成やソースコードへのコメントの付与等により行うことができる。

【0004】

特許文献１は、ソフトウエアの変更が影響を与える範囲を特定する変更影響分析装置を開示する。
具体的には、特許文献１に開示される変更影響分析装置は、ソフトウエアの過去開発および今回開発における変更要求と、自然言語で記述された変更仕様と、変更仕様のソースコードとが対応付けて記載された変更仕様書に基づき、仕様の依存関係を表す仕様依存関係モデルを生成する。さらに、この変更影響分析装置は、生成された仕様依存関係モデルと、ソフトウエアのソースコードの依存関係を示すソースコード依存関係とに基づき、ソフトウエアのソースコードの一部に変更が加えられた場合に変更が影響を及ぼす範囲である変更影響範囲を特定する。
特許文献１に開示される変更影響分析装置はさらに、過去ソースコード、今回ソースコード、およびコミットログを入力として、ソースコードの改訂内容、ファイル名、コメント、およびコミットログを、ソースコードと対応付けて、変更仕様書として文書化することができる。

【先行技術文献】

【特許文献】

【0005】

【特許文献1】国際公開第２０２１－０５３７８３号

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、ソフトウエア開発の時間的制約の下では、ソースコードの変更や追加自体が優先されることにより、当該変更や追加に伴う文書化が、往々にして不十分なものとなりがちである。
ここで、特許文献１は、変更仕様書を生成することができるものの、変更仕様書を作成するために、コミットログやソースコードに付与されたコメントが存在することを前提としている。このため、そもそもコミットログ中のメッセージやソースコードに付与されたコメント等による、ソースコードの変更や追加の仕様の自然言語による記述を欠く場合には、ソースコードへの対応付けができず、変更仕様書を作成することができない。
したがって、特許文献１の技術は、ソースコードの変更や追加の記述を欠く場合に文書化を補完するものとはいえない。

【0007】

このように、従来は、ソースコードの変更や追加の内容の自然言語による記述が不十分であると、当該ソースコードの変更や追加の内容やその影響範囲を、多数の開発者間で共有することが困難であった。
このような文書化の欠如や不十分さは、ソフトウエアの開発や保守の負荷を増大させるとともにその期間を長期化させ、ひいては、ソフトウエアの要求品質や要求納期が担保できなくなるおそれがあった。

【0008】

本発明は上記課題を解決するためになされたものであり、その目的は、コードに関連する文書化を自動的かつ高精度に実行することが可能な情報処理装置、情報処理方法およびプログラムを提供することにある。

【課題を解決するための手段】

【0009】

上記課題を解決するために、本発明に係る情報処理装置の一態様は、コード変更および当該コード変更に対応するメッセージの対をそれぞれ有する複数のノードからグラフを生成するグラフ生成部と、前記グラフ生成部により生成された前記グラフの前記複数のノードのそれぞれについて特徴ベクタを機械学習する第１の学習部と、前記第１の学習部により前記特徴ベクタが機械学習された前記グラフを入力として、機械学習モデルを機械学習させる第２の学習部と、前記第２の学習部により機械学習させた学習済みの前記機械学習モデルに、前記メッセージが未知であるノードを入力して、当該ノードに対応するメッセージを生成するメッセージ生成部と、を備える。

【0010】

本発明に係る情報処理方法の一態様は、情報処理装置が実行する情報処理方法であって、コード変更および当該コード変更に対応するメッセージの対をそれぞれ有する複数のノードからグラフを生成するステップと、生成された前記グラフの前記複数のノードのそれぞれについて特徴ベクタを機械学習するステップと、前記特徴ベクタが機械学習された前記グラフを入力として、機械学習モデルを機械学習させるステップと、学習済みの前記機械学習モデルに、前記メッセージが未知であるノードを入力して、当該ノードに対応するメッセージを生成するステップと、を含む。

【0011】

本発明に係る情報処理プログラムの一態様は、情報処理をコンピュータに実行させるための情報処理プログラムであって、該プログラムは、前記コンピュータに、コード変更および当該コード変更に対応するメッセージの対をそれぞれ有する複数のノードからグラフを生成するグラフ生成処理と、前記グラフ生成処理により生成された前記グラフの前記複数のノードのそれぞれについて特徴ベクタを機械学習する第１の学習処理と、前記第１の学習処理により前記特徴ベクタが機械学習された前記グラフを入力として、機械学習モデルを機械学習させる第２の学習処理と、前記第２の学習処理により機械学習させた学習済みの前記機械学習モデルに、前記メッセージが未知であるノードを入力して、当該ノードに対応するメッセージを生成するメッセージ生成処理、を含む処理を実行させるためのものである。

【発明の効果】

【0012】

本発明によれば、コードに関連する文書化を自動的かつ高精度に実行することができる。
上記した本発明の目的、態様及び効果並びに上記されなかった本発明の目的、態様及び効果は、当業者であれば添付図面及び請求の範囲の記載を参照することにより下記の発明を実施するための形態から理解できるであろう。

【図面の簡単な説明】

【0013】

【図1】図１は、本発明の各実施形態に係るコード文書化装置の機能構成の一例を示すブロック図である。

【図2】図２は、本実施形態に係るコード文書化装置が実行するコード文書化処理の概略処理手順の一例を示すフローチャートである。

【図3】図３は、本実施形態に係るコード文書化装置のグラフ生成部が生成するソースコードの複数のコミットを表すグラフであって、既知のノードで構成されるグラフの一例を説明する概念図である。

【図4】図４は、図３の既知のノードで構成されるグラフに対して、コード変更を記述するメッセージを欠く未知のノードが追加されたグラフの一例を説明する概念図である。

【図5】図５は、図４のグラフをコード特徴空間で初期化した状態のグラフの一例を説明する概念図である。

【図6】図６は、学習済みグラフを用いて機械学習モデルを学習させる、コード文書化装置の学習実行部が実行する機械学習処理の一例を説明する概念図である。

【図7】図７は、学習済み機械学習モデルを用いて、コード文書化装置のメッセージ生成部が実行する未知のノードのメッセージを生成する処理の一例を説明する概念図である。

【図8】図８は、図２のステップＳ５の機械学習モデルを学習させる処理の詳細処理手順の一例を示すフローチャートである。

【図9】図９は、機械学習モデルへのコード変更および対応するメッセージ入力による、メッセージの変更ベクタの生成処理の一例を示す概念図である。

【図10】図１０は、図９で生成されたメッセージの変更ベクタを用いた機械学習モデルによる補正処理の一例を示す概念図である。

【図11】図１１は、本実施形態に係るコード文書化装置のハードウエア構成の一例を示すブロック図である。

【発明を実施するための形態】

【0014】

以下、添付図面を参照して、本発明を実施するための実施形態について詳細に説明する。以下に開示される構成要素のうち、同一機能を有するものには同一の符号を付し、その説明を省略する。なお、以下に開示される実施形態は、本発明の実現手段としての一例であり、本発明が適用される装置の構成や各種条件によって適宜修正または変更されるべきものであり、本発明は以下の実施形態に限定されるものではない。また、本実施形態で説明されている特徴の組み合わせの全てが本発明の解決手段に必須のものとは限らない。

【0015】

本実施形態に係るコード文書化装置は、変更対象であるコードからグラフを生成し、生成されたグラフの複数のノードの複数の特徴ベクタを機械学習により学習し、複数の特徴ベクタが学習された学習済みのグラフを入力として機械学習モデルを学習させる。
本実施形態に係るコード文書化装置はまた、学習済みの機械学習モデルに未知のノードを入力して、当該ノードに対応するメッセージを生成することにより、コードを文書化する。

【0016】

以下では、本実施形態が、プログラミング言語で記述されるソフトウエアのソースコードを変更対象として、当該ソースコードに対するコミットを各ノードとする、複数のノードを有するグラフを生成し、生成されたグラフを用いて、複数段階の機械学習により、ソースコードの変更内容を自然言語で記述するメッセージを生成する例を説明するが、本実施形態はこれに限定されない。
本実施形態は、ソフトウエアのソースコードのようなプログラミング言語で記述されたコードのみならず、例えば、Ｗｉｋｉｐｅｄｉａ等のインターネット上で自由に閲覧および編集が可能なオンライン百科事典のような自然言語で記述されたコードを変更する場合にも、同様に適用可能である。

【0017】

したがって、本実施形態において、変更対象の「コード」とは、プログラミング言語および自然言語を含むあらゆる言語で記述された言語表現としてのコードを広く含む。
ソースコードを変更対象とする場合、ソースコードに対するコミットとは、ソースコードのバージョン管理において、ソースコードへの最新の変更をリポジトリに送信して当該変更を確定させる操作であり、確定された変更はリポジトリの履歴に保持される。他のユーザがリポジトリから更新またはチェックアウト操作を行うと、コミットされたソースコードの最新バージョンを取得することができる。
自然言語で記述されたコードを変更対象とする場合であっても同様に、このコミットをバージョン管理に利用することができる。

【0018】

ソースコードのコミットは、ソースコードに対するコード変更と、当該変更の内容（仕様）を自然言語で記述するメッセージとの対を含む。
ソースコードの変更の文書化とは、当該ソースコードに対するコード変更を記述するメッセージを生成することである。文書化により生成されたメッセージは、リポジトリにおけるコミットを補完するとともに、例えば、ソースコードとは別途の設計文書に記述されてもよく、ソースコード中にコメントとして付与されてもよい。
また、以下、ソースコードに対するコード変更は、ソースコードの変更、追加、および削除等のあらゆる更新を含むものとする。

【0019】

＜コード文書化装置の機能構成＞
図１は、本実施形態に係るコード文書化装置１の機能構成の一例を示すブロック図である。
図１に示すコード文書化装置１は、入力部１１、グラフ生成部１２、グラフ解析部１３、学習実行部１４、メッセージ生成部１５、および出力部１６を備える。
コード文書化装置１は、コード格納部３に格納されたソースコードのコミット群を取得し、取得されたソースコードのコミット群からグラフを生成し、生成されたグラフを用いて、言語（コード）ベースの機械学習モデル（以下、単に「機械学習モデル」という。）２を機械学習させる。
学習済みの機械学習モデル２は、ソースコードの変更を自然言語で記述するコミットのメッセージ部分を推論により生成する。

【0020】

コード文書化装置１は、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）等で構成されるクライアント装置（不図示）とネットワークを介して通信可能に接続してよい。この場合、コード文書化装置１はサーバに実装され、クライアント装置は、コード文書化装置１が外部と情報の入出力を実行する際のユーザインタフェースを提供してよく、また、コード文書化装置１の各コンポーネント１１～１６の一部または全部を備えてもよい。

【0021】

入力部１１は、コード格納部３から、本実施形態に係るコード文書化処理において文書化すべきソースコードを取得して、取得されたソースコードのコミット群を、グラフ生成部１２へ供給する。

【0022】

コード格納部３は、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の不揮発性記憶装置で構成され、開発対象のソースコード、および当該ソースコードのコミットの時系列データを関連付けて格納する。ソースコードのコミットは、上述のとおり、ソースコードに対する変更と、当該変更の内容（仕様）を自然言語で記述するメッセージとの対を含む。コミットはさらに、コミット操作が実行された時点のタイムスタンプを含んでよい。

【0023】

コード格納部３は、開発対象のソースコードのバージョン管理システムのリポジトリの全部または一部であってよく、あるいは、このリポジトリと適宜連携してソースコードのコミット群をコード文書化装置１に供給してよい。
コード格納部３に格納されるソースコードのコミットに含まれるコード変更およびメッセージの対はそれぞれ、機械学習モデル２を事前学習させるための教師データとなる。ソースコードのコミットに含まれるコード変更と対をなすメッセージが、機械学習モデル２の機械学習の推論における正解を示す。

【0024】

入力部１１は、コード格納部３に予め格納されたソースコードのコミット群（以下、「コミットデータ」ともいう。）を読み出すことにより、ソースコードのコミット群を取得してもよく、あるいは、ソースコードのコミット群を記憶する同一のまたは異なる対向装置から通信Ｉ／Ｆを介してソースコードのコミット群を受信してもよい。

【0025】

入力部１１はまた、コード文書化装置１において機械学習処理を実行するために必要な各種パラメータの入力を受け付ける。入力部１１は、コード文書化装置１と通信可能に接続されるクライアント装置のユーザインタフェースを介して、各種パラメータの入力を受け付けてよい。

【0026】

グラフ生成部１２は、入力部１１から供給されるソースコードのコミット群からグラフＧを生成する。
具体的には、グラフ生成部１２は、入力部１１から供給されるソースコードのコミット群のそれぞれに対して、対応するノードＮを生成する。各ノードは、１つのコミットに含まれるコード変更とメッセージとの対を有する。

【0027】

グラフ生成部１２が生成するグラフＧは、複数のノードＮを有し、ノード間をエッジＥで接続したグラフである。各エッジＥは、当該エッジＥの両端のノードＮ、すなわち両端のコミットの間の依存関係（依存度）を示す。エッジＥの両端のノードＮの依存度が高いほど、エッジＥの長さで示される両端のノードＮの距離は短くなる。

【0028】

ノードＮはその一端のノードＮから他端のノードＮへ情報を伝搬するシグナルを表してよい。すなわち、グラフ生成部１２は、有向グラフＧを生成してよい。
本実施形態において、コード文書化装置１は、このソースコードのコミット群の各コミットの間の依存関係を表すグラフＧを用いて機械学習モデル２を学習させる。グラフ生成部１２が生成するこのグラフの構造の詳細は、図３を参照して後述する。

【0029】

グラフ解析部１３は、グラフ生成部１２により生成されたグラフＧを解析して、当該グラフＧを機械学習により最適化する。
具体的には、グラフ解析部１３は、グラフ生成部１２から供給されるグラフＧをコード特徴空間にマッピングし、グラフＧの各ノードＮの特徴ベクタを初期化し、次に、初期化されたグラフに畳み込み演算等を適用して、グラフＧの各ノードＮの特徴ベクタを学習する。ここで、グラフＧの各ノードＮの特徴ベクタは、コード特徴空間上にマッピングされたグラフＧの各ノードＮが表すコミットの変更をベクタで示す変更ベクタである。

【0030】

本実施形態において、グラフ解析部１３は、コミットのコード変更部分のみを用いた半教師あり学習により、グラフＧの各ノードＮの特徴ベクタを機械学習してよい。これにより、コード変更に対応するメッセージを持たない未知のノードをグラフに付加した際に、コード変更とメッセージとの対を有する既知のノードと未知のノードとの双方について、同様にコード特徴空間における特徴ベクタを学習することができる。

【0031】

学習実行部１４は、グラフ解析部１３により解析されたグラフＧを入力として、機械学習モデル２を学習させる。
具体的には、学習実行部１４は、グラフ解析部１３により解析されたグラフＧのうち、既知のノード、すなわち既知のコミットのコード変更とメッセージとの対を教師データとして、機械学習モデル２を学習させる。学習実行部１４が実行するこの機械学習処理の詳細は、図８から図１０を参照して後述する。

【0032】

メッセージ生成部１５は、グラフ解析部１３により解析されたグラフＧを用いて学習実行部１４により学習させた学習済み機械学習モデル２を用いて、未知のノード、すなわち未知のコミットについて、コード変更に対応するメッセージを推論により生成する。

【0033】

出力部１６は、メッセージ生成部１５により生成されたメッセージを出力する。出力部１６により出力されるメッセージは、リポジトリに保持されるソースコードのコミットを補完するために使用されてよい。また、出力部１６により出力されるメッセージは、例えば、ソースコードとは別途の設計文書に記述されてもよく、ソースコード中にコメントとして付与されてもよい。
出力部１４はまた、メッセージ生成部１５により生成されたメッセージを、対応するコード変更とともに、表示装置等を介して外部に表示出力してもよい。

【0034】

＜コード文書化装置１が実行するコード文書化処理＞
図２は、本実施形態に係るコード文書化装置１が実行するコード文書化処理の概略処理手順の一例を示すフローチャートである。
なお、図２の各ステップは、コード文書化装置１のＨＤＤ等の記憶装置に記憶されたプログラムをＣＰＵが読み出し、実行することで実現される。また、図２示すフローチャートの少なくとも一部をＧＰＵなどの他のハードウエアにより実現してもよい。ハードウエアにより実現する場合、例えば、所定のコンパイラを用いることで、各ステップを実現するためのプログラムからＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）上に自動的に専用回路を生成すればよい。また、ＦＰＧＡと同様にしてＧａｔｅＡｒｒａｙ回路を形成し、ハードウエアとして実現するようにしてもよい。また、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）により実現するようにしてもよい。

【0035】

Ｓ１で、コード文書化装置１の入力部１１は、コード格納部３から、ソースコードのコミット群であるコミットデータを取得する。
ソースコードのコミット群を構成する各コミットは、ソースコードに対する変更と、当該変更の内容（仕様）を自然言語で記述するメッセージとの対を含む。Ｓ１でコード格納部３から入力部１１へ入力されるコミットデータは、コミットの時系列データである。

【0036】

Ｓ２で、コード文書化装置１のグラフ生成部１２は、Ｓ１で入力部１１により入力されたソースコードのコミットデータからグラフＧを生成する。
図３は、グラフ生成部１２が生成するグラフの構造の一例を説明する図である。
図３に示すグラフＧは、ノードＮ１からＮ５を有する。複数のノードＮ１からＮ５のそれぞれが、１つのコミットを表す。１つのノードＮに対して、対応するコミットのコード変更（ｄ＿ｉ）およびコード変更の内容（仕様）を自然言語で記述するメッセージ（ｍ＿ｉ）の対が、ラベルとして付与されている。

【0037】

複数のノードＮ１からＮ５のうち、依存関係を有するノードＮの間は、それぞれエッジＥで接続されている。すなわち、エッジＥは、両端のノードＮ（すなわち、コミット）の間の、ソースコードレベルでの依存関係（依存度）を表す。
エッジＥで表されるソースコードレベルでの依存関係は、例えば、あるコード変更と他のコード変更との間の共通度ないし類似度として把握することができる。例えば、ソースコードが一致する割合が多いほど、あるいはより多くの変数を共有しているほど、依存度が高いと判断することができる。エッジＥが示すノードＮ間の依存関係はまた、コード変更に加えて、メッセージ間の共通度ないし類似度に基づいて把握されてよい。
また、ソースコードを作成した開発者や、当該開発者の所属企業等のエンティティが共通しているほど、依存度が高いと判断してもよい。

【0038】

エッジＥは、その一端のノードＮから他端のノードＮへのシグナルの伝搬方向を表してよい。図３では、ノードＮ１からノードＮ２およびＮ３へ、ノードＮ２からノードＮ３～Ｎ５へ、それぞれエッジＥの接続方向が示されており、ソースノード（Ｎ１、Ｎ２）が有する情報、すなわちコード変更およびメッセージが、デスティネーションノード（Ｎ２～Ｎ５）へそれぞれシグナルとして伝搬されることが表されている。エッジＥの長さで表される両端のノード間の距離が、両端のノード間の依存度を示す。

【0039】

本実施形態では、コード文書化装置１は、ソースコードのコミットデータから図３に示すようなグラフＧを生成し、このグラフＧをコード特徴空間に配置し、グラフの各ノードＮの特徴ベクタを機械学習により学習する。
そして、コード文書化装置１は、このように各ノードＮの特徴ベクタを機械学習した学習済みのグラフＧを用いて、コミットのメッセージを生成するデコーダとなる機械学習モデル２を学習させ、コード変更のみを有する未知のノードを学習済みの機械学習モデル２に入力して、当該ノードのメッセージを推定する。

【0040】

メッセージが未知であるコミットについて、例えば、Ｓｅｑ２Ｓｅｑ（Ｓｅｑｕｅｎｃｅ－ｔｏ－Ｓｅｑｕｅｎｃｅ）等の系列変換モデルを用いて、翻訳問題としてメッセージ生成に対処し、コミットのコード変更シーケンスから当該コード変更に対応するメッセージシーケンスに変換する手法も考えられる。
しかしながら、このように翻訳問題としてメッセージ生成に対処した場合、あるコミットが他のコミットに及ぼす影響を考慮することができない。

【0041】

これに対して、本実施形態では、コード文書化装置１は、ソースコードのコミット間の依存関係を規定するグラフＧを生成し、このグラフＧをコード特徴空間にマッピングして、ソースコードのコミット間の依存度（距離）を機械学習することで、あるノードＮのコミットの情報を、当該ノードＮとエッジＥにより接続される他の近隣ノードＮに伝搬させていく。
このように機械学習させた学習済みのグラフＧを入力として、機械学習モデル２を事前学習させ、学習済みの機械学習モデル２により未知のノードのメッセージを生成するので、他のコミットとの間の依存性を考慮して、高精度にコミットのメッセージを生成することができる。

【0042】

図２に戻り、Ｓ３で、コード文書化装置１のグラフ解析部１３は、Ｓ２でグラフ生成部１２により生成されたグラフＧをコード特徴空間上にマッピングして、当該コード空間上にマッピングされた複数のノードＮのそれぞれの特徴ベクタを初期化する。
図４は、図３の既知のノードで構成されるグラフＧに対して、コード変更に対応するメッセージを欠く未知のノードが追加されたグラフＧの一例を説明する概念図である。

【0043】

図３に示す当初のグラフＧは、すべてのノードＮ１～Ｎ５が既知のノードであり、すなわち、ソースコードのコミットのコード変更とメッセージとの対で、すべてのノードＮ１～Ｎ５が完全にラベル付けされている。この当初のグラフに対して、図４に示すように、グラフ生成部１２により、未知のノードＮ６が追加されたものとする。
この未知のノードＮ６は、コミットのコード変更（ｄ＿ｘ）のみを有し、当該コード変更に対するメッセージを持たないノードである。

【0044】

図５は、図４のグラフＧをコード特徴空間上で初期化した状態のグラフＧの一例を示す概念図である。
Ｓ３で、グラフ解析部１３は、図４に示すように未知のノードが追加されたグラフＧを、図５に示すように、ｎ次元のコード特徴空間（言語特徴空間）にマッピングし、既知のノードＮ１～Ｎ５、および未知のノードＮ６を含むグラフＧのすべてのノードの特徴ベクタｖ１～ｖ６をコード空間上で初期化する。

【0045】

グラフ解析部１３は、事前学習させたコードベースの機械学習モデル、例えば、ＢＥＲＴ（ＢｉｄｉｒｅｃｔｉｏｎａｌＥｎｃｏｄｅｒＲｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍＴｒａｎｓｆｏｒｍｅｒｓ）等を用いてコード特徴空間へのマッピングを実行してよいが、本実施形態はこれに限定されず、自然言語処理等のコード処理に適用可能なあらゆる機械学習モデルが使用されてよい。

【0046】

図２に戻り、Ｓ４で、コード文書化装置１のグラフ解析部１３は、Ｓ３でコード特徴空間上に初期化されたグラフＧの既知のノードＮ１～Ｎ５、および未知のノードＮ６を含むグラフＧのすべてのノードの特徴ベクタｖ１～ｖ６を機械学習していく。

【0047】

グラフ解析部１３は、例えば、ＧＮＮ（ＧｒａｐｈＮｅｕｒａｌＮｅｔｗｏｒｋ）等を用いてグラフＧの対象ノードＮの周辺あるいはグラフ全体の情報を畳み込み演算していくことによって、グラフの各ノードの特徴ベクタｖ１～Ｖ６を機械学習してよい。
しかしながら、本実施形態はこれに限定されず、例えば、メッセージ伝達アルゴリズム（ＭｅｓｓａｇｅＰａｓｓｉｎｇＡｌｇｏｒｉｔｈｍ）等のグラフ表現の機械学習に適用可能なあらゆる機械学習モデルやアルゴリズムが使用されてよい。

【0048】

本実施形態では、上述したとおり、グラフ解析部１３は、各ノードＮ１～Ｎ６のコミットのコード変更部分（ｄ＿ｉ）のみを用いて、グラフの各ノードＮ１～Ｎ６の特徴ベクタｖ１～ｖ６を学習していく。

【0049】

Ｓ５で、コード文書化装置１の学習実行部１４は、グラフ解析部１３により各ノードＮ１～Ｎ６の特徴ベクタｖ１～ｖ６が機械学習されたグラフＧを入力として、機械学習モデル２を事前学習させる。
図６は、グラフＧを用いて機械学習モデル２を事前学習させる、学習実行部１４が実行する機械学習の一例を説明する概念図である。

【0050】

図６を参照して、学習実行部１４は、機械学習モデル２を、未知のノードについてコード変更に対応するメッセージを生成するデコーダとして学習させるため、Ｓ４でグラフ解析部１３が出力する学習済みのグラフＧのうち、既知のノードＮにラベル付けされたコード変更（ｄ＿ｉ）と対応するメッセージ（ｍ＿ｉ）との対を教師データとして、機械学習モデル２に入力する。学習実行部１４はまた、Ｓ４で学習されたグラフの特徴ベクタｖを機械学習モデル２に入力する。

【0051】

なお、Ｓ５において学習実行部１４が事前学習させる機械学習モデル２は、Ｓ３でグラフ解析部１３がグラフＧの各ノードＮの特徴ベクタを初期化する際に使用する機械学習モデルと同じであってもよく、あるいはデコーダの機能を有する異なる機械学習モデルであってもよい。

【0052】

Ｓ５において、学習実行部１４は、機械学習モデル２が出力するコミットのメッセージ（ｍ＿ｉ´）を、所定の損失関数を使用して評価する。この損失関数は、あるノードＮの機械学習モデル２に入力されたメッセージ（ｍ＿ｉ）と機械学習モデル２から出力されるメッセージ（ｍ＿ｉ´）との間の損失を算出するので、学習実行部１４は、その損失がより小さくなるよう、機械学習モデル２を事前学習させていく。
Ｓ５における損失関数を用いた機械学習モデル２の機械学習処理の詳細は、図８から図１０を参照して後述する。

【0053】

Ｓ６で、コード文書化装置１のメッセージ生成部１５は、Ｓ５で学習実行部１４により事前学習させた学習済みの機械学習モデル２を用いて、未知のノードについて、コード変更に対応するメッセージを推論により生成する。
図７は、学習済みの機械学習モデル２を用いて、メッセージ生成部１５が実行する未知のノードＮに対するメッセージの生成の一例を説明する概念図である。

【0054】

図７を参照して、メッセージ生成部１５は、未知のノードＮ６、すなわちコミットのコード変更（ｄ＿ｘ）のみを有し、当該コード変更を記述するメッセージ（ｍ＿ｘ）を欠くノードＮ６を、当該ノードＮ６の機械学習された特徴ベクタｖ６とともに、学習済み機械学習モデル２に入力する。
学習済みの機械学習モデル２は、入力されたコード変更（ｄ＿ｘ）に対応する未知のノードＮ６のメッセージ（ｍ＿ｉ´）を出力する。

【0055】

本実施形態では、Ｓ４でグラフＧの各ノードＮの特徴ベクタｖが機械学習されたグラフＧを用いて、メッセージ生成部１５が、未知のノードのコミットのメッセージ部分（ｍ＿ｉ´）を生成する。このため、特徴ベクタｖを介して、コード特徴空間上で距離（依存度）が近い近隣ノードの埋め込み情報が、推定対象ノード（未知のノード）に伝搬されている。

【0056】

したがって、依存関係を持つ他のコミットのコード変更とメッセージとの対の埋め込み情報（他のノードＮの埋め込み情報）と、他のノードに対する距離（意味上の近接性や依存度）の情報（他のノードＮへのエッジＥの情報）を考慮して、高精度にコミットのメッセージを推定することができる。

【0057】

メッセージ生成部１５は、Ｓ６で生成された推論結果であるコミットのメッセージ（ｍ＿ｉ´）の全部または一部を正解ラベルとして機械学習モデル２に入力して、機械学習モデル２を再帰的に再学習させ、機械学習モデル２を強化してもよい。
一方、上記のとおり、Ｓ４でグラフ解析部１３がグラフＧの特徴ベクタｖを学習する際には、グラフＧに付与されたラベルのうち、コード変更（ｄ＿ｉ）のラベルのみが使用され、既知のノードのメッセージ（ｍ＿ｉ）のラベルは使用されない。
本実施形態では、このような半教師あり学習により、コミットデータから生成されたグラフＧを機械学習し、かつ推論結果を正解ラベル（教師データ）として機械学習モデル２を再学習させるので、既知のコミットの教師データが十分でない場合であっても、高精度でコミットのメッセージを生成することができる。

【0058】

Ｓ７で、コード文書化装置１の出力部１６は、メッセージ生成部１５により生成されたメッセージを出力する。上記のとおり、出力部１６により出力されるメッセージは、リポジトリに保持されるソースコードのコミットを補完するために使用されてよく、また、例えば、ソースコードとは別途の設計文書に記述されてもよく、ソースコード中にコメントとして付与されてもよい。

【0059】

＜損失関数を用いた機械学習モデルの学習処理の詳細＞
以下、図８から図１０を参照して、コード文書化装置１の学習実行部１４が実行する、損失関数を用いた機械学習モデル２の機械学習処理の詳細を説明する。
図８は、図２のステップＳ５の機械学習モデル２を機械学習させる処理の詳細処理手順の一例を示すフローチャートである。
Ｓ５１で、コード文書化装置１の学習実行部１４は、ソースコードのコミットのコード変更とメッセージとの対を含むコミットデータを、教師データとして機械学習モデル２に入力して、機械学習モデル２を事前学習させる。
具体的には、Ｓ５１で機械学習モデル２に入力されるのは、図２のＳ４で各ノードＮの特徴ベクタｖが学習されたグラフＧのうち、既知のノードＮ、すなわち、当該既知のノードにラベル付けされたコミットのコード変更（ｄ＿ｉ）とメッセージ（ｍ＿ｉ）との対、および当該既知のノードに対応して最適化されたコード特徴空間における特徴ベクタｖである。

【0060】

Ｓ５２で、機械学習モデル２は、Ｓ５１で入力された既知のノードＮおよび特徴ベクタｖに対応するメッセージ（ｍ＿ｉ´）を機械学習する。
Ｓ５３で、コード文書化装置１の学習実行部１４は、損失関数（Ｌｏｓｓ（ｍ＿ｉ，ｍ＿ｉ´））を用いて、機械学習モデル２に教師データ（正解ラベル）として入力されたノードＮのメッセージ（ｍ＿ｉ）と、機械学習モデル２が推定して生成したノードＮのメッセージ（ｍ＿ｉ´）との間の損失を算出する。

【0061】

Ｓ５４で、コード文書化装置１の学習実行部１４は、損失関数により算出された正解メッセージ（ｍ＿ｉ）と推定されたメッセージ（ｍ＿ｉ´）との間の損失が、所定の収束条件を満たすまで（Ｓ５４：Ｎ）、例えば、所定の閾値以下となるまで繰り返す。損失関数により算出された正解メッセージ（ｍ＿ｉ）と推定されたメッセージ（ｍ＿ｉ´）との間の損失が所定の収束条件を満たすと判定されると（Ｓ５４：Ｙ）、図８の機械学習処理が終了して、図２のＳ６に進む。

【0062】

以下、図９および図１０を参照して、本実施形態において学習実行部１４が実行する、損失関数を用いた機械学習モデル２の評価手法につき詳述する。
学習実行部１４は、機械学習モデル２を事前学習させる際に、例えば、クロスエントロピー損失を用いて、機械学習モデル２が出力するメッセージ（ｍ＿ｉ´）の推定精度を評価してよい。クロスエントロピーにより、機械学習モデル２が出力する推論したデータの確率分布の、教師データ（正解ラベル）の確率分布に対する近似度を損失として算出することができ、両者が近似するほど損失が小さくなる。ただし、学習実行部１４が利用可能な損失関数はクロスエントロピー損失に限定されず、例えば、二乗誤差等、他の損失を評価する関数を用いてもよい。

【0063】

本実施形態において、学習実行部１４は、クロスエントロピー損失関数によりメッセージ（ｍ＿ｉ´）の推定精度を評価する際に、ソースコードのコード変更の特徴ベクタのコード特徴空間におけるアラインメントを、当該コード変更に対応するメッセージからのシグナルを用いて補正する。

【0064】

図９は、機械学習モデル２への入出力を模式的に示す概念図である。
図９を参照して、図８のＳ５１において、学習実行部１４は、機械学習モデル２に対して、グラフＧの各ノードＮの参照部分である時点ｔにおけるコード変更（ｃ＿ｔ）と、当該コード変更（ｃ＿ｔ）に対応して記述されたメッセージ（ｍ）を入力する。
Ｓ５２およびＳ５３において、機械学習モデル２は、メッセージの特徴ベクタ（ｖ＿ｍ）を機械学習する。

【0065】

図１０は、図９で生成されたメッセージの特徴ベクタを用いたコード変更の特徴ベクタのコード特徴空間におけるアラインメントの補正を説明する概念図である。
図１０を参照して、学習実行部１４は、機械学習モデル２が機械学習するメッセージの特徴ベクタ（ｖ＿ｍ）が、ある時点ｔにおけるコード変更（ｃ＿ｔ）を始点とし、時系列上で次の時点ｔ＋１におけるコード変更（ｃ＿ｔ＋１）に向かうように、メッセージの特徴ベクタ（ｖ＿ｍ）を機械学習する。

【0066】

すなわち、本実施形態において、学習実行部１４は、コード変更の特徴ベクタ（ｖ＿ｄｉ）が、メッセージの特徴ベクタ（ｖ＿ｍ）にできるだけ近づくよう、機械学習モデル２を機械学習させる。
したがって、本実施形態におけるクロスエントロピー損失は、コード変更とメッセージの特徴ベクタ間の損失Ｌｖとして以下の式１により算出される。
Ｌｖ＝ｃｏｓ（ｖ＿ｍ，ｖ＿ｄｉ）（式１）
機械学習モデル２のトータルのクロスエントロピー損失は、以下の式２で表されることになる。
Ｌ＿Ｔ＝ＣＥ＋Ｌｖ（式２）

【0067】

このように、本実施形態に係るコード文書化装置１は、学習済みのグラフＧを入力として、クロスエントロピー損失関数を用いて、コミットのコード変更の特徴ベクタと、対応するメッセージの特徴ベクタとの間の損失がより小さくなるよう、機械学習モデル２を事前学習させる。したがって、他のコミットとの間の依存関係を考慮し、かつ、コード変更とメッセージの変更との間の相関を考慮して、より高精度にコミットのメッセージを生成することができる。

【0068】

以上説明したように、本実施形態によれば、コード文書化装置は、変更対象であるコードのコミット群からグラフを生成し、生成されたグラフの複数のノードの複数の特徴ベクタを機械学習により学習し、複数の特徴ベクタが機械学習されたグラフを入力として機械学習モデルを事前学習させる。
コード文書化装置はまた、学習済みの機械学習モデルにグラフの未知のノードを入力して、当該未知のノードに対応するメッセージを生成することにより、コードを文書化する。

【0069】

これにより、例えばソースコードなどのコードに対する変更を記述するメッセージを自動的かつ高精度に生成することができる。したがって、コード変更に伴う文書化をより効率的に補完することができ、協調的なソフトウエア開発環境における品質向上に資する。

【0070】

＜コード文書化装置のハードウエア構成＞
図１１は、本実施形態に係るコード文書化置１のハードウエア構成の非限定的一例を示す図である。
本実施形態に係るコード文書化装置１は、単一または複数の、あらゆるコンピュータ、モバイルデバイス、または他のいかなる処理プラットフォーム上にも実装することができる。
図１１を参照して、コード文書化装置１は、単一のコンピュータに実装される例が示されているが、本実施形態に係るコード文書化装置１は、複数のコンピュータを含むコンピュータシステムに実装されてよい。複数のコンピュータは、有線または無線のネットワークにより相互通信可能に接続されてよい。

【0071】

図１５に示すように、コード文書化装置１は、ＣＰＵ１１１と、ＲＯＭ１１２と、ＲＡＭ１１３と、ＨＤＤ１１４と、入力部１１５と、表示部１１６と、通信Ｉ／Ｆ１１７と、システムバス１１８とを備えてよい。コード文書化装置１はまた、外部メモリを備えてよい。
ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１１は、コード文書化装置１における動作を統括的に制御するものであり、データ伝送路であるシステムバス１１８を介して、各構成部（１１２～１１７）を制御する。なお、ＣＰＵ１１１に替えて、またはこれに加えて、コード文書化装置１は、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）を備え、このＧＰＵにより、機械学習モデル２等の事前学習や推論処理を実行してもよい。

【0072】

ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１１２は、ＣＰＵ１１１が処理を実行するために必要な制御プログラム等を記憶する不揮発性メモリである。なお、当該プログラムは、ＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）１１４、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の不揮発性メモリや着脱可能な記憶媒体（不図示）等の外部メモリに記憶されていてもよい。
ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１１３は、揮発性メモリであり、ＣＰＵ１１１の主メモリ、ワークエリア等として機能する。すなわち、ＣＰＵ１１１は、処理の実行に際してＲＯＭ１１２から必要なプログラム等をＲＡＭ１１３にロードし、当該プログラム等を実行することで各種の機能動作を実現する。

【0073】

ＨＤＤ１１４は、例えば、ＣＰＵ１１１がプログラムを用いた処理を行う際に必要な各種データや各種情報等を記憶している。また、ＨＤＤ１１４には、例えば、ＣＰＵ１１１がプログラム等を用いた処理を行うことにより得られた各種データや各種情報等が記憶される。
入力部１１５は、キーボードやマウス等のポインティングデバイスにより構成される。
表示部１１６は、液晶ディスプレイ（ＬＣＤ）等のモニターにより構成される。表示部１１６は、機械学習処理で使用される各種パラメータや、他の装置との通信で使用される通信パラメータ等をコード文書化装置１へ指示入力するためのユーザインタフェースであるＧＵＩ（ＧｒａｐｈｉｃａｌＵｓｅｒＩｎｔｅｒｆａｃｅ）を提供してよい。

【0074】

通信Ｉ／Ｆ１１７は、コード文書化装置１と外部装置との通信を制御するインタフェースである。
通信Ｉ／Ｆ１１７は、ネットワークとのインタフェースを提供し、ネットワークを介して、外部装置との通信を実行する。通信Ｉ／Ｆ１１７を介して、外部装置との間で各種データや各種パラメータ等が送受信される。本実施形態では、通信Ｉ／Ｆ１１７は、イーサネット（登録商標）等の通信規格に準拠する有線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）や専用線を介した通信を実行してよい。ただし、本実施形態で利用可能なネットワークはこれに限定されず、無線ネットワークで構成されてもよい。この無線ネットワークは、Ｂｌｕｅｔｏｏｔｈ（登録商標）、ＺｉｇＢｅｅ（登録商標）、ＵＷＢ（ＵｌｔｒａＷｉｄｅＢａｎｄ）等の無線ＰＡＮ（ＰｅｒｓｏｎａｌＡｒｅａＮｅｔｗｏｒｋ）を含む。また、Ｗｉ－Ｆｉ（ＷｉｒｅｌｅｓｓＦｉｄｅｌｉｔｙ）（登録商標）等の無線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）や、ＷｉＭＡＸ（登録商標）等の無線ＭＡＮ（ＭｅｔｒｏｐｏｌｉｔａｎＡｒｅａＮｅｔｗｏｒｋ）を含む。さらに、ＬＴＥ／３Ｇ、４Ｇ、５Ｇ等の無線ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）を含む。なお、ネットワークは、各機器を相互に通信可能に接続し、通信が可能であればよく、通信の規格、規模、構成は上記に限定されない。

【0075】

図１に示すコード文書化装置１の各要素のうち少なくとも一部の機能は、ＣＰＵ１１１がプログラムを実行することで実現することができる。ただし、図１に示すコード文書化装置１の各要素のうち少なくとも一部の機能が専用のハードウエアとして動作するようにしてもよい。この場合、専用のハードウエアは、ＣＰＵ１１１の制御に基づいて動作する。

【0076】

なお、上記において特定の実施形態が説明されているが、当該実施形態は単なる例示であり、本発明の範囲を限定する意図はない。本明細書に記載された装置及び方法は上記した以外の形態において具現化することができる。また、本発明の範囲から離れることなく、上記した実施形態に対して適宜、省略、置換及び変更をなすこともできる。かかる省略、置換及び変更をなした形態は、請求の範囲に記載されたもの及びこれらの均等物の範疇に含まれ、本発明の技術的範囲に属する。

【0077】

（本開示の実施形態）
本開示は以下の実施形態を含む。
［１］コード変更および当該コード変更に対応するメッセージの対をそれぞれ有する複数のノードからグラフを生成するグラフ生成部と、前記グラフ生成部により生成された前記グラフの前記複数のノードのそれぞれについて特徴ベクタを機械学習する第１の学習部と、前記第１の学習部により前記特徴ベクタが機械学習された前記グラフを入力として、機械学習モデルを機械学習させる第２の学習部と、前記第２の学習部により機械学習させた学習済みの前記機械学習モデルに、前記メッセージが未知であるノードを入力して、当該ノードに対応するメッセージを生成するメッセージ生成部と、を備えることを特徴とする情報処理装置。

【0078】

［２］前記第１の学習部は、前記グラフの前記複数のノードのそれぞれの前記コード変更を入力として、半教師あり学習により、前記複数のノードのそれぞれの特徴ベクタを機械学習することを特徴とする［１］に記載の情報処理装置。

【0079】

［３］前記第２の学習部は、前記グラフの前記複数のノードのそれぞれの前記コード変更および前記メッセージの対を教師データとして、前記機械学習モデルを機械学習させることを特徴とする［１］または［２］に記載の情報処理装置。

【0080】

［４］前記第２の学習部は、前記グラフの前記複数のノードのそれぞれの前記コード変更の特徴ベクタのコード特徴空間におけるアラインメントを、前記コード変更に対応する前記メッセージの特徴ベクタで補正するよう、前記機械学習モデルを機械学習させることを特徴とする［１］から［３］のいずれかに記載の情報処理装置。

【0081】

［５］前記第２の学習部は、所定の損失関数を用いて、前記所定の損失関数の損失がより小さくなるよう、前記機械学習モデルを機械学習させることを特徴とする［１］から［４］のいずれかに記載の情報処理装置。

【0082】

［６］前記第２の学習部は、前記グラフの前記複数のノードの前記コード変更の特徴ベクタと、前記コード変更に対応する前記メッセージの特徴ベクタとの間の損失を算出し、当該損失がより小さくなるよう、前記機械学習モデルを機械学習させることを特徴とする［５］に記載の情報処理装置。

【0083】

［７］前記グラフ生成部は、前記グラフの前記複数のノードのうち、コード変更における依存関係を有するノード間をエッジにより接続し、前記エッジが前記ノード間の依存関係における距離を示すよう、前記グラフを生成することを特徴とする［１］から［６］のいずれかに記載の情報処理装置。

【0084】

［８］前記グラフ生成部は、前記エッジが、ソースノードからデスティネーションノードへのシグナルの伝搬方向を示すよう、前記グラフを有向グラフとして生成することを特徴とする［７］に記載の情報処理装置。

【0085】

［９］前記第１の学習部は、前記グラフの前記複数のノードのそれぞれをコード特徴空間上にマッピングし、前記複数のノードのそれぞれの特徴ベクタを、前記コード特徴空間で初期化することを特徴とする［１］から［８］のいずれかに記載の情報処理装置。

【0086】

［１０］前記第１の学習部は、前記グラフに対して、前記メッセージが未知であるノードを付加し、前記メッセージが未知であるノードが付加された前記グラフの各ノードの特徴ベクタを、前記コード空間で初期化することを特徴とする［９］に記載の情報処理装置。

【0087】

［１１］前記第１の学習部は、前記グラフの各ノードの特徴ベクタを、第１の機械学習モデルを用いて機械学習し、前記第２の学習部は、前記第１の機械学習モデルとは異なる第２の機械学習モデルを機械学習させることを特徴とする［１］から［１０］のいずれかに記載の情報処理装置。

【0088】

［１２］情報処理装置が実行する情報処理方法であって、コード変更および当該コード変更に対応するメッセージの対をそれぞれ有する複数のノードからグラフを生成するステップと、生成された前記グラフの前記複数のノードのそれぞれについて特徴ベクタを機械学習するステップと、前記特徴ベクタが機械学習された前記グラフを入力として、機械学習モデルを機械学習させるステップと、機械学習済みの前記機械学習モデルに、前記メッセージが未知であるノードを入力して、当該ノードに対応するメッセージを生成するステップと、を含むことを特徴とする情報処理方法。

【0089】

［１３］情報処理をコンピュータに実行させるための情報処理プログラムであって、該プログラムは、前記コンピュータに、コード変更および当該コード変更に対応するメッセージの対をそれぞれ有する複数のノードからグラフを生成するグラフ生成処理と、前記グラフ生成処理により生成された前記グラフの前記複数のノードのそれぞれについて特徴ベクタを機械学習する第１の学習処理と、前記第１の学習処理により前記特徴ベクタが機械学習された前記グラフを入力として、機械学習モデルを機械学習させる第２の学習処理と、
前記第２の学習処理により機械学習させた学習済みの前記機械学習モデルに、前記メッセージが未知であるノードを入力して、当該ノードに対応するメッセージを生成するメッセージ生成処理、を含む処理を実行させるためのものであることを特徴とする情報処理プログラム。

【符号の説明】

【0090】

１…コード文書化装置、２…機械学習モデル、３…コード格納部、１１…入力部、１２…グラフ生成部、１３…グラフ解析部、１４…学習実行部、１５…メッセージ生成部、１６…出力部、１１１…ＣＰＵ、１１２…ＲＯＭ、１１３…ＲＡＭ、１１４…ＨＤＤ、１１５…入力部、１１６…表示部、１１７…通信Ｉ／Ｆ、１１８…システムバス

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10】

【図11】

【手続補正書】

【提出日】2023-12-12

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

コード変更および当該コード変更に対応するメッセージの対をそれぞれ有する複数のノードからグラフを生成するグラフ生成部と、
前記グラフ生成部により生成された前記グラフの前記複数のノードのそれぞれについて特徴ベクタを機械学習する第１の学習部と、
前記第１の学習部により前記特徴ベクタが機械学習された前記グラフの前記複数のノードのそれぞれの前記コード変更および前記メッセージの対を教師データとして、機械学習モデルを機械学習する第２の学習部と、
前記第２の学習部により機械学習された学習済みの前記機械学習モデルに、前記メッセージが未知であるノードを入力して、当該ノードに対応するメッセージを生成するメッセージ生成部と、
を備えることを特徴とする情報処理装置。

【請求項2】

【請求項3】

前記第２の学習部は、前記グラフの前記複数のノードのそれぞれの前記コード変更の特徴ベクタのコード特徴空間におけるアラインメントを、前記コード変更に対応する前記メッセージの特徴ベクタで補正するよう、前記機械学習モデルを機械学習する
ことを特徴とする請求項１に記載の情報処理装置。

【請求項4】

前記第２の学習部は、所定の損失関数を用いて、前記所定の損失関数の損失がより小さくなるよう、前記機械学習モデルを機械学習する
ことを特徴とする請求項１に記載の情報処理装置。

【請求項5】

前記第２の学習部は、前記グラフの前記複数のノードの前記コード変更の特徴ベクタと、前記コード変更に対応する前記メッセージの特徴ベクタとの間の損失を算出し、当該損失がより小さくなるよう、前記機械学習モデルを機械学習する
ことを特徴とする請求項４に記載の情報処理装置。

【請求項6】

【請求項7】

前記グラフ生成部は、前記エッジが、ソースノードからデスティネーションノードへのシグナルの伝搬方向を示すよう、前記グラフを有向グラフとして生成する
ことを特徴とする請求項６に記載の情報処理装置。

【請求項8】

【請求項9】

前記第１の学習部は、前記グラフに対して、前記メッセージが未知であるノードを付加し、前記メッセージが未知であるノードが付加された前記グラフの各ノードの特徴ベクタを、前記コード特徴空間で初期化する
ことを特徴とする請求項８に記載の情報処理装置。

【請求項10】

前記第１の学習部は、前記グラフの各ノードの特徴ベクタを、第１の機械学習モデルを用いて機械学習し、
前記第２の学習部は、前記第１の機械学習モデルとは異なる第２の機械学習モデルを機械学習する
ことを特徴とする請求項１に記載の情報処理装置。

【請求項11】

情報処理装置が実行する情報処理方法であって、
コード変更および当該コード変更に対応するメッセージの対をそれぞれ有する複数のノードからグラフを生成するステップと、
生成された前記グラフの前記複数のノードのそれぞれについて特徴ベクタを機械学習するステップと、
前記特徴ベクタが機械学習された前記グラフを入力として、機械学習モデルを機械学習するステップと、
機械学習済みの前記機械学習モデルに、前記メッセージが未知であるノードを入力して、当該ノードに対応するメッセージを生成するステップと、
を含むことを特徴とする情報処理方法。

【請求項12】

情報処理をコンピュータに実行させるための情報処理プログラムであって、該プログラムは、前記コンピュータに、
コード変更および当該コード変更に対応するメッセージの対をそれぞれ有する複数のノードからグラフを生成するグラフ生成処理と、
前記グラフ生成処理により生成された前記グラフの前記複数のノードのそれぞれについて特徴ベクタを機械学習する第１の学習処理と、
前記第１の学習処理により前記特徴ベクタが機械学習された前記グラフを入力として、機械学習モデルを機械学習する第２の学習処理と、
前記第２の学習処理により機械学習された学習済みの前記機械学習モデルに、前記メッセージが未知であるノードを入力して、当該ノードに対応するメッセージを生成するメッセージ生成処理、
を含む処理を実行させるためのものであることを特徴とする情報処理プログラム。

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版