特表2024-538693 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ セールスフォース　ドット　コム　インコーポレイティッドの特許一覧

特表2024-538693自然言語コード検索のシステム及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-10-23

(54)【発明の名称】自然言語コード検索のシステム及び方法

(51)【国際特許分類】

G06F 16/2452 20190101AFI20241016BHJP

【ＦＩ】

G06F16/2452

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024520799

(86)(22)【出願日】2022-10-03

(85)【翻訳文提出日】2024-04-04

(86)【国際出願番号】 US2022077458

(87)【国際公開番号】W WO2023060034

(87)【国際公開日】2023-04-13

(31)【優先権主張番号】63/252,393

(32)【優先日】2021-10-05

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】17/587,984

(32)【優先日】2022-01-28

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＰＹＴＨＯＮ

２．ＪＡＶＡＳＣＲＩＰＴ

３．ＪＡＶＡ

(71)【出願人】

【識別番号】506332063

【氏名又は名称】セールスフォースインコーポレイテッド

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100229448

【弁理士】

【氏名又は名称】中槇利明

(72)【発明者】

【氏名】ゴトメア，アクヒレシュディーパク

(72)【発明者】

【氏名】リ，ジュンナン

(72)【発明者】

【氏名】ホイ，チュホン

【テーマコード（参考）】

5B175

【Ｆターム（参考）】

5B175HA04

(57)【要約】

実施形態は、自然言語クエリを、そのクエリを意味的に表すプログラミング言語のコードスニペットに変換することを対象とする。本実施形態は、エンコーダネットワークと分類器ネットワークとを含むカスケード型ニューラルネットワークを含む。エンコーダネットワークは、分類器ネットワークよりも高速であるが、精度は低い。エンコーダネットワークは、対照学習フレームワークを使用して、コードスニペットの大きなセットからコード候補を識別するように訓練される。分類器ネットワークは、バイナリ分類器を使用して、コード候補からクエリを意味的に表すコードスニペットを識別するように訓練される。

【特許請求の範囲】

【請求項1】

自然言語クエリをプログラミング言語のコードスニペットに変換するための方法であって、
エンコーダネットワークにおいて、複数のコードスニペットからコードスニペットインデックスを生成することと、
前記コードスニペットインデックス及び前記エンコーダネットワークを使用して、前記自然言語クエリに対する複数のコード候補を生成することと、
前記自然言語クエリ及び前記複数のコード候補から、前記自然言語クエリと前記複数のコード候補からのコード候補とを含むペアを生成することと、
前記エンコーダネットワークに順次続く分類器ネットワーク及び前記ペアを使用して、前記自然言語クエリに対する前記プログラミング言語の前記コードスニペットを決定することであって、前記コードスニペットは、前記自然言語クエリの意味表現である、ことと、を含む、方法。

【請求項2】

対照損失関数で前記コード候補を決定するように前記エンコーダネットワークを訓練することをさらに含む、請求項１に記載の方法。

【請求項3】

クロスエントロピー目的関数を使用して、前記ペアから前記コードスニペットを決定するように前記分類器ネットワークを訓練することをさらに含む、請求項１又は２に記載の方法。

【請求項4】

前記エンコーダネットワークは、前記分類器ネットワークよりも１桁高速であり、１桁不正確である、請求項１又は２に記載の方法。

【請求項5】

前記エンコーダネットワークは、前記分類器ネットワークとは異なる損失関数で訓練される、請求項１又は２に記載の方法。

【請求項6】

前記エンコーダネットワークは、前記分類器ネットワークとニューラルネットワーク構造の一部分を共有する、請求項１又は２に記載の方法。

【請求項7】

前記複数のコード候補を生成することは、
前記自然言語クエリから符号化を生成することと、
前記コードスニペットインデックスを使用して、前記自然言語クエリの前記符号化から距離関数によって決定される距離内にある前記複数のコード候補の符号化を決定することと、を含む、請求項１又は２に記載の方法。

【請求項8】

前記コードスニペットを決定することは、
各ペアのコード候補が自然言語クエリの前記意味表現であるという信頼度スコアを決定することと、
前記ペアの信頼度スコアをランク付けすることと、
前記自然言語クエリの前記意味表現である前記コードスニペットとして、最も高い信頼度スコアに対応するペアのコード候補を選択することと、を含む、請求項１又は２に記載の方法。

【請求項9】

自然言語クエリをプログラミング言語のコードスニペットに変換するためのシステムであって、
カスケード型ニューラルネットワークを記憶するように構成されたメモリと、
前記メモリに結合されたプロセッサと、を含み、前記プロセッサは、前記カスケード型ニューラルネットワークに、
前記カスケード型ニューラルネットワークのエンコーダネットワークにおいて、複数のコードスニペットからコードスニペットインデックスを生成することと、
前記コードスニペットインデックス及び前記エンコーダネットワークを使用して、前記自然言語クエリに対する複数のコード候補を生成することと、
前記自然言語クエリ及び前記複数のコード候補から、前記自然言語クエリと前記複数のコード候補からのコード候補とを含むペアを生成することと、
前記カスケード型ニューラルネットワークの分類器ネットワーク及び前記ペアを使用して、前記自然言語クエリに対する前記プログラミング言語の前記コードスニペットを決定することであって、前記コードスニペットは、前記自然言語クエリの意味表現である、ことと、を行わせるための命令を実行するように構成されている、システム。

【請求項10】

前記プロセッサは、
対照損失関数で前記コード候補を決定するように前記エンコーダネットワークを訓練することと、
クロスエントロピー目的関数を使用して前記ペアから前記コードスニペットを決定するように前記分類器ネットワークを訓練することと、を行うようにさらに構成されている、請求項９に記載のシステム。

【請求項11】

前記エンコーダネットワークは、前記分類器ネットワークよりも１桁高速であり、１桁不正確である、請求項９又は１０に記載のシステム。

【請求項12】

前記エンコーダネットワークは、前記分類器ネットワークとニューラルネットワーク構造の一部分を共有する、請求項９又は１０に記載のシステム。

【請求項13】

前記コード候補を生成するために、前記プロセッサは、
前記自然言語クエリから符号化を生成することと、
前記コードスニペットインデックスを使用して、前記自然言語クエリの前記符号化から距離関数によって決定される距離内にある前記複数のコード候補の符号化を決定することと、を行うようにさらに構成されている、請求項９又は１０に記載のシステム。

【請求項14】

前記コードスニペットを決定するために、前記プロセッサは、
各ペアのコード候補が前記自然言語クエリの意味表現であるという信頼度スコアを決定することと、
前記ペアの信頼度スコアをランク付けすることと、
前記自然言語クエリの前記意味表現である前記コードスニペットとして、最も高い信頼度スコアに対応するペアのコード候補を選択することと、を行うようにさらに構成されている、請求項９又は１０に記載のシステム。

【請求項15】

命令が記憶された非一時的なコンピュータ可読媒体であって、前記命令は、プロセッサによって実行されるときに、自然言語クエリをプログラミング言語のコードスニペットに変換するための動作を前記プロセッサに実行させ、前記動作は、
エンコーダネットワークにおいて、複数のコードスニペットからコードスニペットインデックスを生成することと、
前記コードスニペットインデックス及び前記エンコーダネットワークを使用して、前記自然言語クエリに対する複数のコード候補を生成することと、
前記自然言語クエリ及び前記複数のコード候補から、前記自然言語クエリと前記複数のコード候補からのコード候補とを含むペアを生成することと、
分類器ネットワーク及び前記ペアを使用して、前記自然言語クエリに対する前記プログラミング言語の前記コードスニペットを決定することであって、前記コードスニペットは、前記自然言語クエリの意味表現である、ことと、を含む、非一時的なコンピュータ可読媒体。

【請求項16】

前記動作は、
対照損失関数で前記コード候補を決定するように前記エンコーダネットワークを訓練することと、
クロスエントロピー目的関数を使用して、前記ペアから前記コードスニペットを決定するように前記分類器ネットワークを訓練することと、をさらに含む、請求項１５に記載の非一時的なコンピュータ可読媒体。

【請求項17】

前記エンコーダネットワークは、前記分類器ネットワークよりも１桁高速であり、１桁不正確である、請求項１５又は１６に記載の非一時的なコンピュータ可読媒体。

【請求項18】

前記エンコーダネットワークは、前記分類器ネットワークとニューラルネットワーク構造の一部分を共有する、請求項１５又は１６に記載の非一時的なコンピュータ可読媒体。

【請求項19】

前記コード候補を生成することは、
前記自然言語クエリから符号化を生成することと、
前記コードスニペットインデックスを使用して、前記自然言語クエリの前記符号化から距離関数によって決定される距離内にある前記複数のコード候補の符号化を決定することと、をさらに含む、請求項１５又は１６に記載の非一時的なコンピュータ可読媒体。

【請求項20】

前記コードスニペットを決定することは、
各ペアのコード候補が前記自然言語クエリの意味表現であるという信頼度スコアを決定することと、
前記ペアの信頼スコアをランク付けすることと、
前記自然言語クエリの前記意味表現である前記コードスニペットとして、最も高い信頼度スコアに対応するペアのコード候補を選択することと、をさらに含む、請求項１５又は１６に記載の非一時的なコンピュータ可読媒体。

【発明の詳細な説明】

【技術分野】

【0001】

この出願は、２０２１年１０月５日に出願された米国仮特許出願第６３／２５２，３９３号及び２０２２年１月２８日に出願された米国非仮特許出願第１７／５８７，９８４号に対する優先権を主張し、これらは、それらの全体が参照により本明細書に組み込まれる。

【0002】

本実施形態は、一般に、機械学習システム及び自然言語処理（ＮＬＰ）に関し、より具体的には、自然言語を使用してコードスニペットを検索することに関する。

【背景技術】

【0003】

人工知能（ＡＩ）モデルは多様なアプリケーションに広く使用されている。いくつかのＡＩモデルは、自然言語入力に応答してプログラミング言語でコードスニペットを検索及び／又は生成するために使用されることがある。例えば、自然言語入力は、「ｆｉｌｔｅｒｔｈｅｓａｌｅｓｒｅｃｏｒｄｓｔｈａｔｏｃｃｕｒｒｅｄａｔｔｈｅｚｉｐｃｏｄｅ９４０７０」などの機能を記述してもよく、ＡＩモデルは、この機能を実装するコードセグメント（例えば、Ｐｙｔｈｏｎ、Ｃ＃など）を生成又は検索してもよい。既存のコード生成システムは、自然言語検索の速度を向上させること、又は自然言語検索の精度を向上させることのいずれかに焦点を当ててきた。しかし、これらの既存の自然言語検索方法は、検索の効率と網羅性との間のトレードオフに大きく悩まされている。

【図面の簡単な説明】

【0004】

【図1】いくつかの実施形態による、コード生成器を実装するコンピューティングデバイスの簡略図である。

【0005】

【図2】いくつかの実施形態による、コード生成器の簡略図である。

【0006】

【図3】いくつかの実施形態による、コード生成器を訓練するための方法の簡略図である。

【0007】

【図4】いくつかの実施形態による、自然言語クエリと意味的に等価なコードスニペットを決定するための方法の簡略図である。

【0008】

図では、同じ符号を有する要素は、同じ又は同様の機能を有する。

【発明を実施するための形態】

【0009】

自然言語クエリは、例えば、ウェブ検索、データベース検索、法律検索などの様々な分野における検索を改善するために使用されている。また、自然言語クエリを使用して、コードスニペットの大きなセットを検索することにも関心が寄せられている。大きなコードリポジトリを有する組織は、コードを介したインデックス付けと検索から利益を得、適切に機能することがわかっているコードを再利用してもよい。コード及びコードスニペットの自然言語検索に対する最近のいくつかのアプローチでは、自然言語とソースコードシーケンスのペアを活用して、コードスニペットのサンプルを検索するようにテキストからコードへの検索モデルを訓練する。

【0010】

モデルを訓練する１つのアプローチは、対照学習フレームワークを使用することを含む。モデルは、高速エンコーダとも呼ばれる高速エンコーダニューラルネットワークであってもよい。対照学習フレームワークでは、意味的に一致する自然言語とプログラム言語シーケンスのペアは一緒にプルされるが、意味的に一致しないペアは離れるようにプッシュされる。高速エンコーダネットワークは、対照学習を使用してもよい。高速エンコーダネットワークは、セマンティクスマッチングの精度を犠牲にして多数の候補コードスニペットを検索することを含むシナリオに対して効率的であってもよい。

【0011】

モデルを訓練する別のアプローチは、バイナリ分類器を使用する。このタイプのモデルは、自然言語及びプログラミング言語シーケンスを入力として受信し、自然言語及びプログラミング言語シーケンスが意味的に一致するかどうかを予測する、訓練されたバイナリ分類器を使用する。バイナリ分類器を使用するモデルは、低速分類器と見なされてもよい。低速分類器は、より正確ではあるが、モデルが自然言語シーケンスに対してコードスニペットを分析するのに要する時間量に起因して、多数の候補コードスニペットを検索するときには、実行不可能になる。言い換えれば、対照学習フレームワークを使用して訓練されたモデルは、少なくとも１０倍高速であるが、バイナリ分類器を使用するモデルよりも少なくとも１０倍以上精度が低いことがある。

【0012】

多数のコードスニペットの自然言語検索を改善するために、実施形態は、高速エンコーダモデルと正確な分類器モデルの両方を含むカスケード型ニューラルネットワークモデルを目的とする。カスケード型ニューラルネットワークモデルは、コードスニペットの大きなセットの自然言語検索効率を向上させる。具体的には、カスケード型ニューラルネットワークモデルは、高速エンコーダネットワークと低速分類器ネットワークを組み合わせたハイブリッドアプローチである。最初に、エンコーダネットワークは、自然言語クエリに基づいて、コードスニペットのセットから上位Ｋ個のコード候補を決定する。第２に、上位Ｋ個のコード候補は、各コード候補を自然言語クエリとペアにし、各ペアに対して信頼度スコアを生成する低速分類器ネットワークを通過する。最も高い信頼度スコアを有するコードスニペットは、自然言語クエリと意味的に一致するコードスニペットであり得る。

【0013】

数Ｋは、エンコーダネットワークが生成し得るコード候補の数を識別する閾値を示してもよい。Ｋ閾値は、好ましくは、コードスニペットのセットのサイズよりもはるかに小さい。Ｋ閾値が小さすぎる場合、正しいコードスニペットを見落とす可能性が高くなり、Ｋ閾値が大きすぎる場合、第２段階の低速分類器を効率的に実行することが実行不可能であってもよい。

【0014】

いくつかの実施形態では、高速エンコーダネットワーク及び低速分類器ネットワークを記憶するためのメモリオーバヘッドは、ネットワークの重みを共有するか、又は部分的に共有することによって最小化されてもよい。例えば、高速エンコーダネットワークと低速分類器ネットワークの両方で使用されるようにトランスフォーマエンコーダを訓練することによって、高速エンコーダ及び低速分類器のトランスフォーマエンコーダが共有されてもよい。

【0015】

本明細書で使用される場合、「ネットワーク」という用語は、任意の人工知能ネットワーク又はシステム、ニューラルネットワーク又はシステム、及び／又はそこで実装されるか、又はそれと共に実装される任意の訓練又は学習モデルを含む任意のハードウェア又はソフトウェアベースのフレームワークを含んでもよい。

【0016】

本明細書で使用される場合、「モジュール」という用語は、１つ以上の機能を実行するハードウェア又はソフトウェアベースのフレームワークを含んでもよい。いくつかの実施形態では、モジュールは、１つ以上のニューラルネットワーク上で実装されてもよい。

【0017】

図１は、本明細書に記載されるいくつかの実施形態による、コード生成器を実装するコンピューティングデバイスの簡略図である。図１に示すように、コンピューティングデバイス１００は、メモリ１２０に結合されたプロセッサ１１０を含む。コンピューティングデバイス１００の動作は、プロセッサ１１０によって制御される。また、コンピューティングデバイス１００は、１つのプロセッサ１１０のみを有して示されているが、プロセッサ１１０は、コンピューティングデバイス１００内の１つ以上の中央処理ユニット、マルチコアプロセッサ、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、特定用途向け集積回路、グラフィック処理ユニット（ＧＰＵ）などを代表するものであり得ると理解される。コンピューティングデバイス１００は、スタンドアロンのサブシステムとして、コンピューティングデバイスに追加されたボードとして、及び／又は仮想マシンとして実装されてもよい。

【0018】

メモリ１２０は、コンピューティングデバイス１００によって実行されるソフトウェア及び／又はコンピューティングデバイス１００の動作中に使用される１つ以上のデータ構造を記憶するために使用されてもよい。メモリ１２０は、１つ以上のタイプの機械可読媒体を含んでもよい。機械可読媒体のいくつかの一般的な形態は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ－ＲＯＭ、任意の他の光学媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ－ＥＰＲＯＭ、任意の他のメモリチップ又はカートリッジ、及び／又はプロセッサ又はコンピュータが読むように適応される任意の他の媒体を含んでもよい。

【0019】

プロセッサ１１０及び／又はメモリ１２０は、任意の好適な物理的配置に配置されてもよい。いくつかの実施形態では、プロセッサ１１０及び／又はメモリ１２０は、同じボード、同じパッケージ（例えば、システムインパッケージ）、同じチップ（例えば、システムオンチップ）などに実装されてもよい。いくつかの実施形態では、プロセッサ１１０及び／又はメモリ１２０は、分散、仮想化、及び／又はコンテナ化されたコンピューティングリソースと複数のプロセッサとを含んでもよい。そのような実施形態とマッチングして、プロセッサ１１０及び／又はメモリ１２０は、１つ以上のデータセンター及び／又はクラウドコンピューティング施設に位置してもよい。

【0020】

いくつかの例では、メモリ１２０は、１つ以上のプロセッサ（例えば、プロセッサ１１０）によって動作するときに、１つ以上のプロセッサに本明細書にさらに詳細に記載される方法を実行させ得る実行可能コードを含む非一時的な有形機械可読媒体を含んでもよい。例えば、図示のように、メモリ１２０は、システム及びモデルを実装及び／又はエミュレートするため、及び／又は本明細書にさらに記載される任意の方法を実装するために使用され得るコード生成器１３０などの自然言語（ＮＬ）処理モジュールのための命令を含む。いくつかの例では、コード生成器１３０は、データインターフェース１１５を介して、例えば、自然言語テキスト、クエリ、又はコンピュータコードなどの入力１４０を受信してもよい。データインターフェース１１５は、ユーザから入力１４０を受信するユーザインターフェース、又はメモリ１２０若しくはデータベースのような別のメモリ記憶装置に記憶された入力１４０を受信又は取り出す通信インターフェースのいずれかであってもよい。コード生成器１３０は、自然言語テキスト又はクエリと意味的に等価なプログラム可能言語（ＰＬ）シーケンス、コード、又はコードスニペットなどの出力１５０を生成してもよい。いくつかの実施形態では、符号発生器１３０は、エンコーダネットワーク１３２の出力が部分的に分類器ネットワーク１３４に入力され得るように、エンコーダネットワーク１３２及び分類器ネットワーク１３４を含むカスケード型ニューラルネットワークを含んでもよい。

【0021】

図２は、いくつかの実施形態による、コード生成器の簡略図２００である。図２に例示されるように、コード生成器１３０は、エンコーダネットワーク１３２と分類器ネットワーク１３４とを含む。コード生成器１３０は、自然言語クエリ又はテキストの自然言語クエリ２０２を受信する。自然言語クエリ２０２は、図１で議論された入力１４０であってもよい。自然言語クエリ２０２は、コード生成器１３０がコードスニペットなどのプログラミング言語シーケンスに変換し得る「ｆｉｌｔｅｒｔｈｅｓａｌｅｓｒｅｃｏｒｄｓｔｈａｔｏｃｃｕｒｒｅｄａｔｔｈｅｚｉｐｃｏｄｅ９４０７０」など、人間が書いたテキスト又は話したテキストであってもよい。コード生成器１３０は、自然言語クエリ２０２をエンコーダネットワーク１３２を通過させる。エンコーダネットワーク１３２は、Ｋ個のコード候補２０４Ａ～２０４Ｋを生成してもよい。コード候補２０４Ａ～２０４Ｋは、自然言語クエリ２０２を意味的に表現する、及び／又は自然言語クエリ１２８と意味的に一致するプログラミング言語のコードスニペットであってもよい。分類器ネットワーク１３４は、自然言語クエリ２０２からコード候補２０４Ａ～２０４Ｋのペアを受信してもよい。ペアの各ペアは、候補２０４Ａ～２０４Ｋのうちの１つ及び自然言語クエリ２０２を含んでもよい。分類器ネットワーク１３４は、自然言語クエリ２０２の意味表現であるコードスニペット２０６を生成してもよい。

【0022】

いくつかの実施形態では、エンコーダネットワーク１３２は、有意に高速、例えば、少なくとも１０倍以上、分類器ネットワーク１３４よりも大きい。実際、エンコーダネットワーク１３２の速度により、エンコーダネットワーク１３２は、利用可能なコードスニペットの大きなセットからコード候補２０４Ａ～２０４Ｋを迅速に決定してもよい。一方、分類器ネットワーク１３４は、エンコーダネットワーク１３２よりも低速であるが、自然言語クエリ２０２と意味的に一致するコードスニペットを識別する際に、有意により正確に、例えば、少なくとも１０倍以上正確に識別する。図２に示すように、分類器ネットワーク１３４は、コード候補２０４Ａ～２０４Ｋと自然言語クエリ２０２のペアを受信し、自然言語クエリ２０２の意味表現であるコードスニペット２０６を識別する。エンコーダネットワーク１３２と分類器ネットワーク１３４とを含むハイブリッドアプローチを使用することによって、コード発生器１３０は、自然言語クエリ２０２の意味表現であるコードスニペット２０６を決定するための速度と精度を改善する。

【0023】

いくつかの実施形態では、エンコーダネットワーク１３２は、ＢＥＲＴ（ｂｉｄｉｒｅｃｔｉｏｎａｌｅｎｃｏｄｅｒｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍｔｒａｎｓｆｏｒｍｅｒｓ）又はＢＥＲＴネットワークの変形であってもよいか、又は含んでもよい。ＢＥＲＴネットワーク又はＢＥＲＴネットワークの変形は、テキスト入力からコードスニペットを取り出すために、多様なプログラミング言語のプログラミング言語シーケンスで事前に訓練されてもよい。例示的な事前に訓練されたＢＥＲＴネットワークは、ＧｒａｐｈＣｏｄｅＢＥＲＴ又はＣｏｄｅＢＥＲＴである。例示的なプログラミング言語は、Ｒｕｂｙ、ＪａｖａＳｃｒｉｐｔ、Ｇｏ、Ｐｙｔｈｏｎ、Ｊａｖａ、Ｃ、Ｃ＋＋、Ｃ＃、Ｐｈｐなどであってもよい。訓練段階の間、コード候補２０４を認識するために、エンコーダネットワーク１３２は、さらに、バイモーダルデータセットを使用して、対照学習フレームワークで訓練されてもよい。バイモーダルデータセットでは、意味が一致する自然言語クエリとプログラミング言語シーケンスの表現の正のペアが一緒にプルされる。一方、ランダムにペアになった自然言語クエリとプログラミング言語シーケンスである負のペアの表現は、離されるようにプッシュされる。ｉｎｆｏＮＣＥ損失関数のような対照損失関数は、エンコーダネットワーク１３２を訓練するために使用されてもよく、以下に複製される。

【数1】

式中、ｆ_θ（ｘ_ｉ）は、自然言語入力ｘ_ｉの密な表現であり、ｙ_ｉは、対応する意味的に等価なプログラミング言語シーケンスであり、Ｎは、バイモーダルデータセットにおける訓練例の数であり、σは、温度ハイパーパラメータであり、Ｂは、現在の訓練ミニバッチを示す。エンコーダネットワーク１３２は、対照損失関数が最小化されるまで訓練されてもよい。

【0024】

訓練されると、エンコーダネットワーク１３２は、コードスニペット２０８として示される候補コードスニペットのセット

【数2】

を受信してもよい。コードスニペット２０８は、様々な自然言語クエリに対応し得る潜在的コードスニペット、コードスニペットのユニバース、利用可能なコードスニペットなどを含んでもよい。コードスニペット２０８は、コードスニペットインデックス２１０として示されるインデックス

【数3】

に符号化されてもよい。コードスニペットインデックス２１０は、コードスニペット２０８内の各コードスニペットの符号化のインデックスであってもよい。エンコーダネットワーク１３２は、例えば、コード生成器１３０がコードスニペット２０６を決定する自然言語クエリ２０２を受信する前に、コードスニペットのセットをオフラインで符号化してもよい。コードスニペットインデックス２１０は、エンコーダネットワーク１３２内、又は図１に記載されるメモリ１２０内のどこかに記憶されてもよい。

【0025】

いくつかの実施形態では、コードスニペットインデックス２１０を生成した後に、エンコーダネットワーク１３２は、自然クエリｘ_ｉ（自然言語クエリ２０２）を受信し、ｆ_θ（ｘ_ｉ）を計算し、コードスニペットインデックス２１０をクエリし、コードスニペットインデックス２１０内の最近傍（複数可）に対応するＣ（コードスニペット２０８）からコードスニペットを返してもよい。近傍（複数可）は、例えば、コサイン類似性関数である類似性関数によって決定される距離メトリックを使用して計算されてもよい。次いで、自然語クエリｘ_ｉに対してコードスニペットのセットＣ（コードスニペット２０８）から正しいコードスニペットに割り当てられたランクｒ_ｉを使用して、ＭＲＲ（ｍｅａｎｒｅｃｉｐｒｏｃａｌｒａｎｋｉｎｇ）メトリック

【数4】

が計算されてもよい。ＭＲＲメトリックから、ＭＲＲに含まれるランク、又はＭＲＲ内のランクから特定の距離を有するコード候補２０４が決定されてもよい。いくつかの実施形態では、コード候補２０４の数は、エンコーダネットワーク１３２に上位Ｋ個の候補、例えば、コード候補２０４Ａ～２０４Ｋを識別させる閾値であり得るハイパーパラメータＫによって管理されてもよい。

【0026】

いくつかの実施形態では、分類器ネットワーク１３４も、ＢＥＲＴ（ｂｉｄｉｒｅｃｔｉｏｎａｌｅｎｃｏｄｅｒｒｅｐｒｅｓｅｎｔａｔｉｏｎｓｆｒｏｍｔｒａｎｓｆｏｒｍｅｒｓ）又はＢＥＲＴネットワークの変形であってもよいか、又は含んでもよい。ＢＥＲＴネットワーク又はＢＥＲＴネットワークの変形は、テキスト入力からコードスニペットを取り出すために、プログラミング言語シーケンスで事前に訓練されてもよい。例示的な事前に訓練されたＢＥＲＴネットワークは、ＧｒａｐｈＣｏｄｅＢＥＲＴ又はＣｏｄｅＢＥＲＴであってもよく、例示的なプログラミング言語は、Ｒｕｂｙ、ＪａｖａＳｃｒｉｐｔ、Ｇｏ、Ｐｙｔｈｏｎ、Ｊａｖａ、Ｃ、Ｃ＋＋、Ｃ＃、Ｐｈｐなどであってもよい。

【0027】

分類器ネットワーク１３４は、（２０２として示す）自然言語クエリｘ_ｉ及びプログラミング言語シーケンスｙ_ｊ（コード候補２０４Ａ～２０４Ｋのうちの１つ又は別のコードシーケンス）を入力として受信し、自然言語入力ｘ_ｉ及びコードシーケンスを一緒に符号化し、バイナリ分類を実行してもよい。バイナリ分類は、自然言語入力ｘ_ｉ及びコードシーケンスｙ_ｊが意味的に一致するかどうかを予測してもよい。いくつかの実施形態では、分類器ネットワーク１３４は、自然言語入力ｘ_ｉ及びコードシーケンスｙ_ｊの連結、［ｘ_ｉ；ｙ_ｊ］などを受信してもよい。

【0028】

分類器ネットワーク１３４は、訓練バッチを使用してバイナリ分類について訓練されてもよい。訓練バッチは、各ペアが自然言語クエリとコードスニペットとを含むペアを含んでもよい。訓練バッチは、バイモーダルデータセットについてのバッチであってもよく、正のペアは、自然言語クエリとコードスニペットとの間の意味的一致を示し、負のペアは、意味的不一致を示す。自然言語クエリと意味的にプログラムされた言語シーケンスを含むペアのセット

【数5】

が与えられると、この訓練スキームに対するクロスエントロピー目的関数は、以下のようであってもよい。

【数6】

式中、ｐ_θ（ｘ_ｉ，ｙ_ｊ）は、分類器によって予測されるように、自然言語シーケンスｘ_ｉがプログラミング言語シーケンスｙ_ｊと意味的に一致する確率を表す。分類器ネットワーク１３４は、相互エントロピー目的関数が最小化されるまで訓練されてもよい。

【0029】

正のペアの訓練ミニバッチ

【数7】

から、負のペアの訓練バッチが生成されてもよい。例えば、ミニバッチ中のプログラム言語シーケンスからプログラム言語シーケンス

【数8】

をランダムに選択し、選択されたシーケンスをｘ_ｉとペアにすることによって、負のペアが生成されてもよい。分類器ネットワーク１３４がトランスフォーマエンコーダベースの分類器を含むときに、セルフアテンション層における自然言語トークンとプログラミング言語トークンとの間の相互作用は、分類器ネットワーク１３４の精度を向上させるのに役立ち得る。

【0030】

訓練されると、分類器ネットワーク１３４は、自然言語クエリ２０２及びコード候補２０４からコードスニペット２０６を決定してもよい。例えば、推論中に、分類器ネットワーク１３４は、複数のペアを入力として受信することができ、各ペアは、候補コードスニペットのセット

【数9】

（コード候補２０４Ａ～２０４Ｋ）からの自然言語シーケンスｘ_ｉ（例えば、自然言語クエリ２０２）とコードスニペットｙ_ｊ（コード候補２０４Ａ～２０４Ｋのうちの１つ）を含む。分類器ネットワーク１３４は、各ペアについて信頼度スコアを生成し、その信頼度スコアに従って、コード候補２０４Ａ～２０４Ｋ内の各コード候補をランク付けしてもよい。信頼度スコアは、例えば、０～１までの尺度を有する確率であってもよく、１に近い値は、一致の確率が高いことを示し、０に近い値は、不一致の確率が高いことを示す。最も高いスコアを有するペアに対応するコードスニペットｙ_ｊ（コード候補２０４Ａ～２０４Ｋ中のコード候補）は、自然言語シーケンスｘ_ｉ（自然言語クエリ２０２）との意味的一致であってもよい。

【0031】

上述のように、本明細書で論じられるコード生成器１３０は、エンコーダネットワーク１３２及び分類器ネットワーク１３４などのネットワークのカスケードを含み、高速エンコーダネットワーク１３２の速度と分類器ネットワーク１３４の精度とを２段階プロセスで組み合わせる。第１の段階では、エンコーダネットワーク１３２は、自然言語クエリ２０２を受信し、コードスニペットのセットＣ（コードスニペット２０８）からコード候補２０４Ａ～２０４Ｋを生成する。エンコーダネットワーク１３２は、自然言語クエリ２０２の符号化を決定し、距離関数を使用して、符号化をコードスニペット２０８のコードスニペットインデックス２１０と一致させてもよい。いくつかの実施形態では、エンコーダネットワーク１３２は、Ｋ個のコード候補２０４Ａ～２０４Ｋを決定してもよく、Ｋは、ハイパーパラメータであり得る設定可能な候補閾値である。典型的には、Ｋ個の候補は、自然言語クエリ２０２の符号化に対してコードスニペットインデックス２１０内で最も近い距離を有する上位候補である。

【0032】

第２の段階では、コード候補２０４が自然言語クエリ２０２とペアにされる。例示的なペアは、２０２～２０４Ａ、２０２～２０４Ｂ、．．．、２０２～２０４Ｋであってもよい。分類器ネットワーク１３４は、ペア２０２－２０４Ａ、２０２－２０４Ｂ、．．．、２０２－２０４Ｋを受信する。ペア２０２－２０４Ａ、２０２－２０４Ｂ、．．．、２０２－２０４Ｋの各ペアに対して、分類器ネットワーク１３４は、自然言語クエリ２０２が、バイナリ分類器を使用して、コード候補２０４Ａ～２０４Ｋの対応するものと意味的に一致するという信頼度スコアを返す。ペア２０２－２０４Ａ、２０２－２０４Ｂ、．．．、２０２－２０４Ｋに関連付けられた信頼度スコアに基づいて、分類器ネットワーク１３４は、自然言語クエリ２０２と意味的に一致するコードスニペット２０６を選択する。いくつかの例では、コードスニペット２０６は、最も高い信頼度スコアを有するペアに対応してもよい。

【0033】

上述したように、エンコーダネットワーク１３２は、計算的には高速であるが、自然言語クエリと意味的に一致するコードスニペットを決定する際には、分類器ネットワーク１３４よりも精度が低い。Ｋ＜＜｜Ｃ｜であるスキームにおいて、エンコーダネットワーク１３２とともに分類器ネットワーク１３４を順次追加することは、わずかな計算オーバーヘッドを追加してもよい。分類器ネットワーク１３４がコード候補２０４Ａ～２０４Ｋを洗練する第２の段階は、Ｋの値が、エンコーダネットワーク１１８の再呼び出しが適度に高くなるようにセットされる場合、取り出し性能を向上させる。いくつかの実施形態において、Ｋは、ハイパーパラメータであってもよい。非常に低いＫをセットすることは、分類器ネットワーク１３４に渡されるコード候補２０４のセット内のコードスニペット２０６を見落とす可能性が高くなる。一方、高いＫをセットすると、分類器ネットワーク１３４による取り出しに対してスキームが実行不可能になる。しかし、Ｋを１０のような値にセットすることは、Ｋが１００以上にセットされたときにはわずかな向上しか得られない従来のコード生成システムに比べて、取り出し性能において有意な利得をすでに提供している。

【0034】

いくつかの実施形態では、エンコーダネットワーク１３２及び分類器ネットワーク１３４は、ニューラルネットワーク構造の一部分を共有してもよい。例えば、エンコーダネットワーク１３２及び分類器ネットワーク１３４は、ＢＥＲＴネットワーク内のトランスフォーマエンコーダ内の層の重みを共有してもよい。ニューラルネットワーク構造を共有することにより、エンコーダネットワーク１３２及び分類器ネットワーク１３４によって生じるメモリオーバヘッドが最小化される。
エンコーダネットワーク１３２及び分類器ネットワーク１３４によるニューラルネットワーク構造の共有、例えば、トランスフォーマ層は、式（１）に示されるｉｎｆｏＮＣＥ

【数10】

及び式（２）に示されるバイナリクロスエントロピー

【数11】

の共同目標を用いてトランスフォーマエンコーダを訓練することによって達成されてもよい。この共有された変形におけるパラメータの数は、トランスフォーマ層が共有されないときのほぼ半分であるが、推論中の計算コストは、同様か、又は同じであってもよい。

【0035】

共有された実施形態では、分類器ネットワーク１３４は、ペア２０２－２０４Ａ、２０２－２０４Ｂ、．．．、２０２－２０４Ｋに対する信頼度スコアを決定する追加の分類層又はヘッドを有してもよい。分類器ネットワーク１３４は、トランスフォーマエンコーダの上に分類ヘッドを含むことになる。さらに、共有されたニューラルネットワーク構造は、３つの入力、自然言語クエリ２０２、候補コードスニペットのセットＣ（コードスニペット２０８）、及びペア２０２－２０４Ａ、２０２－２０４Ｂ、．．．、２０２－２０４Ｋを受信してもよい。共有された実施形態では、ネットワークの共有された層を介して２つのパスが行われ、自然言語クエリ２０２は、第１のパス中の入力であり、ペア２０２－２０４Ａ、２０２－２０４Ｂ、．．．、２０２－２０４Ｋは、第２のパス中に入力される。

【0036】

図３いくつかの実施形態による、コード生成器を訓練するための方法３００の簡略図である。方法３００のプロセス３０２～３０４のうちの１つ以上は、少なくとも部分的に、１つ以上のプロセッサによって実行されるときに、１つ以上のプロセッサにプロセス３０２～３０４のうちの１つ以上を実行させ得る非一時的な有形機械可読媒体に記憶された実行可能コードの形態で実装されてもよい。

【0037】

プロセス３０２において、エンコーダネットワークが訓練される。例えば、事前訓練されたＢＥＲＴネットワークであり得るエンコーダネットワーク１３２は、自然言語シーケンスと意味的に一致するコードスニペットを識別するために、対照学習フレームワークでさらに訓練されてもよい。エンコーダネットワーク１３２を訓練するために使用される対照損失関数は、ｉｎｆｏＮＣＥ損失関数などの対照損失関数であってもよい。訓練は、負のペアと正のペアのバッチを含んでもよく、各ペアは、自然言語シーケンスとプログラミング言語シーケンスとを含む。訓練は、ｉｎｆｏＮＣＥ損失関数が最小化されるまで反復的に継続してもよい。

【0038】

プロセス３０４において、分類器ネットワークが訓練される。例えば、事前に訓練されたＢＥＲＴネットワークであり得る分類器ネットワーク１３４は、コードスニペットが自然言語シーケンスに一致する確率スコアを決定するために、バイナリ分類で訓練されてもよい。クロスエントロピー目的関数は、分類器ネットワーク１３４を訓練するために使用されてもよい。訓練は、負のペアと正のペアのバッチを含んでもよく、各ペアは、自然言語シーケンスとプログラミング言語シーケンスとを含む。訓練は、クロスエントロピー目的関数が最小化されるまで反復的に継続してもよい。

【0039】

図４は、いくつかの実施形態による、自然言語クエリと意味的に等価なコードスニペットを生成するための方法４００の簡略図である。方法４００のプロセス４０２～４０８のうちの１つ以上は、少なくとも部分的に、１つ以上のプロセッサによって実行されるときに、１つ以上のプロセッサにプロセス４０２～４０８のうちの１つ以上を実行させ得る非一時的な有形機械可読媒体に記憶された実行可能コードの形態で実装されてもよい。

【0040】

プロセス４０２において、コードスニペットインデックスが生成される。例えば、エンコーダネットワーク１３２は、多数の自然言語クエリと意味的に対応し得るコードスニペット２０８を受信する。エンコーダネットワーク１３２は、コードスニペット２０８を符号化し、符号化されたコードスニペットに対応するコードスニペットインデックス２１０を生成する。プロセス４０２は、エンコーダネットワーク１３２が訓練された後で、かつ、エンコーダネットワーク１３２が自然言語クエリ２０２を処理する前に、発生してもよい。

【0041】

プロセス４０４において、自然言語クエリに対するコード候補が生成される。例えば、エンコーダネットワーク１３２は、自然言語クエリ２０２を受信し、自然言語クエリ２０２に対する符号化を生成してもよい。エンコーダネットワーク１３２は、自然言語クエリ２０２の符号化をコードスニペット２０８の符号化に一致させるためにコードスニペットインデックス２１０を使用して、自然言語クエリ２０２と意味的に一致し得るコード候補２０４Ａ～２０４Ｋを識別してもよい。上述のように、コード候補２０４Ａ～２０４Ｋの数は、ハイパーパラメータであり得る数Ｋを使用してセットされてもよい。

【0042】

プロセス４０６において、自然言語クエリとコード候補とを含むペアが生成される。例えば、コード生成器１３０は、ペア２０２－２０４Ａ、２０２－２０４Ｂ、．．．、２０２－２０４Ｋを生成してもよく、各ペアは、自然言語クエリ２０２と、コード候補２０４Ａ～２０４Ｋのうちの１つとを含む。

【0043】

プロセス４０８において、コードスニペットが決定される。例えば、分類器ネットワーク１０４は、ペア２０２－２０４Ａ、２０２－２０４Ｂ、．．．、２０２－２０４Ｋを受信し、各ペアに対する信頼度スコアを決定してもよい。最も高い信頼度スコアを有するペアは、自然言語クエリ２０２と意味的に一致するコードスニペット２０６であってもよい。

【0044】

コンピューティングデバイス１００のようなコンピューティングデバイスのいくつかの例は、１つ以上のプロセッサ（例えば、プロセッサ１１０）によって動作するときに、１つ以上のプロセッサに方法３００～４００のプロセスを実行させ得る実行可能コードを含む非一時的な有形機械可読媒体を含んでもよい。方法３００～４００のプロセスを含み得る機械可読媒体のいくつかの一般的な形態は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、ＣＤ－ＲＯＭ、任意の他の光学媒体、パンチカード、紙テープ、穴のパターンを有する任意の他の物理媒体、ＲＡＭ、ＰＲＯＭ、ＥＰＲＯＭ、ＦＬＡＳＨ－ＥＰＲＯＭ、任意の他のメモリチップ又はカートリッジ、及び／又はプロセッサ又はコンピュータが読むように適合される任意の他の媒体である。

【0045】

発明の態様、実施形態、実装、又はアプリケーションを例示するこの説明及び添付の図面は、限定的なものと解釈されるべきではない。様々な機械的、組成的、構造的、電気的、及び動作上の変更は、この説明及び特許請求の範囲の精神及び範囲から逸脱することなく行われてもよい。いくつかの例では、本開示の実施形態を不明瞭にしないために、周知の回路、構造、又は技法が詳細に示されていないか、又は記載されていない。２つ以上の図の類似の数字は、同じ又は同様の要素を表す。

【0046】

この説明では、本開示と矛盾しないいくつかの実施形態を記載する特定の詳細が明記されている。実施形態の完全な理解を提供するために、多数の詳細が明記されている。いくつかの実施形態は、これらの特定の詳細の一部又は全部がなくても実施され得ると当業者に明らかであろう。本明細書に開示される特定の実施形態は、例示的であるが、限定的ではないことを意味する。当業者は、本明細書に具体的に記載されていないが、本開示の範囲及び精神内にある他の要素を認識してもよい。追加的に、不必要な繰り返しを回避するために、１つの実施形態に関連して示され、記載される１つ以上の特徴は、他の方法で具体的に記載されないか、又は１つ以上の特徴が一実施形態を非機能的にする場合を除いて、他の実施形態に組み込まれてもよい。

【0047】

例示的な実施形態が示され記載されたが、広範囲の修正、変更及び置換が、前述の開示において企図され、いくつかの例では、実施形態のいくつかの特徴を、他の特徴の対応する使用なしに採用してもよい。当業者であれば、多くの変形、代替、及び修正を認識するであろう。したがって、本発明の範囲は、以下の特許請求の範囲によってのみ限定されるべきであり、特許請求の範囲は、本明細書に開示された実施形態の範囲と一致する方式で広く解釈されることが適切である。

【図1】

【図2】

【図3】

【図4】

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版