(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-04-20
(54)【発明の名称】コモンセンス説明を生成するための言語モデルの利用
(51)【国際特許分類】
G06N 3/04 20060101AFI20220413BHJP
G06N 5/04 20060101ALI20220413BHJP
G06F 16/90 20190101ALI20220413BHJP
G06F 40/56 20200101ALI20220413BHJP
G06F 40/44 20200101ALI20220413BHJP
【FI】
G06N3/04
G06N5/04
G06F16/90 100
G06F40/56
G06F40/44
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2021550225
(86)(22)【出願日】2020-02-24
(85)【翻訳文提出日】2021-08-27
(86)【国際出願番号】 US2020019453
(87)【国際公開番号】W WO2020180518
(87)【国際公開日】2020-09-10
(32)【優先日】2019-03-04
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2019-04-24
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】506332063
【氏名又は名称】セールスフォース ドット コム インコーポレイティッド
(74)【代理人】
【識別番号】100107766
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100135079
【氏名又は名称】宮崎 修
(72)【発明者】
【氏名】ラジャニ,ナズネーン
(72)【発明者】
【氏名】マッカン,ブライアン
【テーマコード(参考)】
5B091
5B175
【Fターム(参考)】
5B091AA15
5B091CA21
5B091EA01
5B091EA02
5B175EA01
5B175FB04
5B175GC03
(57)【要約】
いくつかの実施形態によれば、予測を行うために人工知能、ニューラルネットワーク又はディープラーニングモデルにより使用される推論のためのコモンセス自動生成説明(CAGE)を展開又は提供するためのシステム及び方法が提供される。いくつかの実施形態では、当該システム及び方法は、このような説明を生成するために言語モデル(LM)に対して教師ありの微調整を使用する。これらの説明は、下流の分類に使用されてもよい。
【特許請求の範囲】
【請求項1】
埋め込みモジュールにより、質問・回答のセットについての構造化ソーステキストを符号化及び埋め込むステップであり、前記質問・回答のセットは、質問及び複数の回答選択肢を含む、ステップと、
多層トランスフォーマモジュールにより、前の反復からの構造化説明テキストに関連する生成されたトークンに基づいて、前記埋め込みモジュールの出力を反復的に復号して、前記回答選択肢のうちどれが前記質問に対して正しいかを推定するための説明テキストを生成するステップであり、前の反復からの前記構造化説明テキストは、人間の注釈者によって生成された説明テキストを含む、ステップと、
前記生成された説明テキストを分類モジュールに提供するステップと、
前記生成された説明テキストを使用して、前記分類モジュールにおいて、前記回答選択肢のうちどれが前記質問に対して正しいかの予測を生成するステップと
を含む方法。
【請求項2】
前記質問・回答のセットについての前記構造化ソーステキストは、自然言語形式のテキストを含む、請求項1に記載の方法。
【請求項3】
前記人間の注釈者から前記構造化説明テキストを収集するステップを含む、請求項1に記載の方法。
【請求項4】
前記構造化説明テキストを収集するステップは、
訓練用の質問・回答のセットを前記人間の注釈者に提供するステップと、
前記訓練用の質問・回答のセットに応じて前記人間の注釈者から前記構造化説明テキストを受信するステップと
を含む、請求項3に記載の方法。
【請求項5】
前記質問・回答のセットを前記分類モジュールに提供するステップであり、前記質問、前記複数の回答選択肢及び前記生成された説明テキストは、前記分類モジュールに提供されるとき、区切りで区切られる、ステップを含む、請求項1に記載の方法。
【請求項6】
前記埋め込みモジュール及び前記多層トランスフォーマモジュールは、自然言語モデルの少なくとも一部を含む、請求項1に記載の方法。
【請求項7】
前記分類モジュールは、多層トランスフォーマエンコーダを含む、請求項1に記載の方法。
【請求項8】
質問・回答のセットについての構造化ソーステキストを符号化及び埋め込むための埋め込みモジュールであり、前記質問・回答のセットは、質問及び複数の回答選択肢を含む、埋め込みモジュールと、
前の反復からの構造化説明テキストに関連する生成されたトークンに基づいて、前記埋め込みモジュールの出力を反復的に復号して、前記回答選択肢のうちどれが前記質問に対して正しいかを推定するための説明テキストを生成するための多層トランスフォーマモジュールであり、前の反復からの前記構造化説明テキストは、人間の注釈者によって生成された説明テキストを含む、多層トランスフォーマモジュールと、
前記生成された説明テキストを使用して、前記回答選択肢のうちどれが前記質問に対して正しいかの予測を生成するための分類モジュールと
を含むシステム。
【請求項9】
前記質問・回答のセットについての前記構造化ソーステキストは、自然言語形式のテキストを含む、請求項8に記載のシステム。
【請求項10】
前記埋め込みモジュール及び前記多層トランスフォーマモジュールは、ニューラルネットワークを少なくとも一部含む、請求項8に記載のシステム。
【請求項11】
前記複数の回答選択肢及び前記生成された説明テキストは、区切りで区切られて前記分類モジュールに提供される、請求項8に記載のシステム。
【請求項12】
前記埋め込みモジュール及び前記多層トランスフォーマモジュールは、自然言語モデルの少なくとも一部を含む、請求項8に記載のシステム。
【請求項13】
前記分類モジュールは、多層トランスフォーマエンコーダを含む、請求項8に記載のシステム。
【請求項14】
コンピュータに関連する1つ以上のプロセッサにより実行されると、前記1つ以上のプロセッサに対して、
埋め込みモジュールにより、質問・回答のセットについての構造化ソーステキストを符号化及び埋め込むステップであり、前記質問・回答のセットは、質問及び複数の回答選択肢を含む、ステップと、
多層トランスフォーマモジュールにより、前の反復からの構造化説明テキストに関連する生成されたトークンに基づいて、前記埋め込みモジュールの出力を反復的に復号して、前記回答選択肢のうちどれが前記質問に対して正しいかを推定するための説明テキストを生成するステップであり、前の反復からの前記構造化説明テキストは、人間の注釈者によって生成された説明テキストを含む、ステップと、
前記生成された説明テキストを分類モジュールに提供するステップと、
前記生成された説明テキストを使用して、前記分類モジュールにおいて、前記回答選択肢のうちどれが前記質問に対して正しいかの予測を生成するステップと
を含む方法を実行させるように適合された実行可能コードを含む非一時的な機械読み取り可能媒体。
【請求項15】
前記分類モジュールは、多層トランスフォーマエンコーダを含む、請求項14に記載の非一時的な機械読み取り可能媒体。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願への相互参照]
本出願は、2019年3月4日に出願された米国仮特許出願第62/813,697号、及び2019年4月24日に出願された米国非仮特許出願第16/393,801号に対する優先権を主張し、これらの全内容を参照により援用する。
【0002】
[著作権表示]
この特許文献の開示の一部は、著作権保護の対象である資料を含む。著作権者は、特許文献又は特許の開示が特許商標庁の特許ファイル又は記録に現れる通り、誰かによるそのファクシミリの複製に異論はないが、他の点については全ての著作権を保持する。
【0003】
[技術分野]
本開示は、一般的に、自然言語処理に関し、より具体的には、推論又は合理化のコモンセンス説明を生成するために言語モデルを利用することに関する。
【背景技術】
【0004】
ニューラルネットワーク及びディープラーニングモデルで実装された人工知能は、人間のような精度で実世界の情報を自動的に分析するための技術として大きな期待を示している。しかし、人工知能又はディープラーニングモデルは、しばしば、その予測の背後にある推論若しくはその予測のための合理化、又はどの程度まで推論若しくは合理化がコモンセンスの知識に基づいているかを説明できない。これは、人間がこのようなモデルを理解して信頼することを困難にする。
【0005】
したがって、人工知能又はディープラーニングモデルにおいてコモンセンス推論又は合理化を提供、実装又は改善し、さらに、その推論又は合理化のための説明を生成又は提供するシステム及び方法を有することが有利である。
【図面の簡単な説明】
【0006】
【
図1】いくつかの実施形態による計算デバイスの簡略化した図である。
【
図2】いくつかの実施形態に従って、コモンセンス説明(CoS-E, Common Sense Explanations)データセットに含まれ得る質問、回答及び人間により作成された説明の例を示す。
【
図3】いくつかの実施形態に従って、CoS-Eデータセットにおいて収集された説明の例示的な分布を示す。
【
図4】いくつかの実施形態に従って、CoS-Eデータセットから説明を生成するためのコモンセンス自動生成説明(CAGE, Commonsense Auto-Generated Explanations)言語モデルを訓練する例示的な時間ステップを示す。
【
図5】いくつかの実施形態による言語モジュール又はモデルの簡略化した図である。
【
図6】いくつかの実施形態に従って、予測を生成するための分類モデル又はモジュールの例示的な時間ステップを示す。
【
図7】いくつかの実施形態による分類モデル又はモジュールの簡略化した図である。
【
図8】いくつかの実施形態に従って、人工知能又はディープラーニングモデルによる推論のためのコモンセンス説明を生成するシステムを示す簡略化した図である。
【
図9】いくつかの実施形態に従って、人工知能又はディープラーニングモデルによる推論のためのコモンセンス説明を生成する方法の簡略化した図である。
【
図10】いくつかの実施形態に従って、人工知能又はディープラーニングモデルによる合理化のためのコモンセンス説明を生成するシステムの簡略化した図である。
【
図11】いくつかの実施形態に従って、人工知能又はディープラーニングモデルによる合理化のためのコモンセンス説明を生成する方法の簡略化した図である。
【
図12】いくつかの実施形態による、推論及び合理化のためのCommonsenseQA、CoS-E及びCAGEサンプルからの例の集合を示す表を示す。
【発明を実施するための形態】
【0007】
図面において、同一の表示を有する要素は、同一又は類似の機能を有する。
【0008】
この説明及び添付する図面は、態様、実施形態、実現方式又は出願を例示するものであり、限定として解釈されるべきではない。特許請求の範囲が保護される発明を定義する。様々な機械的、組成的、構造的、電気的及び動作上の変更は、この説明及び特許請求の範囲の真意及び範囲から逸脱することなく行われてもよい。いくつかの例では、周知の回路、構造又は技術は、当業者に周知であるので、詳細には図示又は記載されていない。2つ以上の図面における同様の数字は、同一又は類似の要素を表す。
【0009】
この説明において、本開示に従ったいくつかの実施形態を記載する特定の詳細が記載される。多数の特定の詳細が、実施形態の完全な理解を提供するために記載される。しかし、いくつかの実施形態がこれらの特定の詳細の一部又は全部なしに実施され得ることは、当業者には明らかである。本明細書に開示される特定の実施形態は、例示的であるが、限定的ではないことを意味する。当業者は、本明細書に具体的に記載されていないが、本開示の範囲及び真意内にある他の要素を認識し得る。さらに、不要な繰り返しを回避するために、1つの実施形態に関連して図示及び記載される1つ以上の特徴は、他に特に記載されていないか、或いは、1つ以上の特徴が実施形態を機能しなくする場合を除いて、他の実施形態に組み込まれてもよい。
【0010】
[概要]
ニューラルネットワーク及びディープラーニングモデルで実装された人工知能は、人間のような精度で実世界の情報を自動的に分析するための技術として大きな期待を示している。一般的に、このようなニューラルネットワーク及びディープラーニングモデルは、入力情報を受信し、入力情報に基づいて予測を行う。しかし、これらのモデルは、コモンセンス推論又は合理化(commonsense reasoning or rationalization)を適用することで、これらの予測を展開又は説明するための問題に直面する可能性がある。コモンセンス推論又は合理化は、現代の機械学習方法にとって困難な課題である。人工知能又はディープラーニングモデルは、しばしば、その予測の背後にある推論又は合理化(コモンセンス等)を説明できず、これは、人間がこのようなモデルを理解して信頼することを困難にする。
【0011】
コモンセンス推論又は合理化を適用し、それを説明することは、ディープニューラルネットワークを人間にとってよりトランスペアレントにして信頼を構築するのに役立つ。
【0012】
いくつかの実施形態によれば、本開示は、コモンセンス推論又は合理化に有用な説明を生成するために予め訓練された言語モデルを利用するシステム及び方法を提供する。いくつかの実施形態では、コモンセンス自動生成説明(CAGE, Commonsense Auto-Generated Explanations)は、コモンセンス質問回答(CommonsenseQA)のための説明を生成するためのフレームワークとして提供される。CommonsenseQAは、Talmor他、「COMMONSENSEQA: A Question Answering Challenge Targeting Commensense Knowledge」、arXiv:1811.00937v2、2018年11月2日に詳細に記載されているように、コモンセンス推論能力を有する自然言語処理(NLP, natural language processing)モデルを開発するために提案された多肢選択式の質問回答データセットであり、本文献を参照により援用する。複数のバージョン(例えば、v1.0、v1.1)のCommonsenseQAが存在し、これらのいずれかは1つ以上の実施形態において使用できる。NLPは、ニューラルネットワークが適用され得る1つのクラスの問題である。NLPは、個々の単語及び語句の理解によって新たなニューラルネットワークを浸透させるために使用できる。
【0013】
いくつかの実施形態では、コモンセンス推論についての人間の説明は、コモンセンス説明(CoS-E, Common Sense Explanations)として、CommonsenseQAのコーパスの上に生成及び構築されるか、或いは、コーパスに加えられる。いくつかの実施形態では、CoS-Eは、自由形式の自然言語の説明と、正しい回答を予測するために重要であるとして人間により選択された単語を表す強調スパン注釈(highlighted span annotation)との双方の形式で、人間の説明を含む。
【0014】
いくつかの実施形態によれば、コモンセンス推論のタスクは、2つの段階に分割される。第1の段階では、本開示のシステム及び方法は、CommonsenseQAの例を、対応するCoS-E説明と共に言語モデルに提供する。言語モデルは、例からの質問及び回答選択肢を条件としており、CoS-E説明を生成するように訓練される。第2の段階では、本開示のシステム及び方法は、CommonsenseQAの訓練及び検証セットにおいて各例についての説明を生成するために言語モデルを使用する。これらのコモンセンス自動生成説明(CAGE)は、それを元の質問の終わり、回答選択肢、及び言語モデルの出力に連結することにより、第2のコモンセンス推論モデルに提供される。2段階のCAGEフレームワークは、最良の報告される基準を10%上回る最先端の結果を取得し、また、コモンセンス自動生成説明(CAGE)の予測を正当化する説明を生成する。
【0015】
要するに、本開示は、ニューラルコモンセンス推論を研究するための新たなコモンセンス説明(CoS-E)データセットを導入する。本開示は、CommonsenseQAにおいて約65%の最先端の精度を達成する説明を自動的に生成するための新たな方法(CAGE)を提供する。
【0016】
[計算デバイス]
図1は、いくつかの実施形態による計算デバイス100の簡略化した図である。
図1に示すように、計算デバイス100は、メモリ120に結合されたプロセッサ110を含む。計算デバイス100の動作は、プロセッサ110によって制御される。1つのプロセッサ110のみを有する計算デバイス100が示されているが、プロセッサ110は、計算デバイス100内の1つ以上の中央処理装置、マルチコアプロセッサ、マイクロプロセッサ、マイクロコントローラ、デジタルシグナルプロセッサ、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、グラフィックス処理装置(GPU)等を表してもよいことが理解される。計算デバイス100は、スタンドアロン型サブシステムとして、計算デバイスに追加されるボードとして、及び/又は仮想機械として実装されてもよい。
【0017】
メモリ120は、計算デバイス100によって実行されるソフトウェア及び/又は計算デバイス100の動作中に使用される1つ以上のデータ構造を記憶するために使用されてもよい。メモリ120は、1つ以上のタイプの機械読み取り可能媒体を含んでもよい。いくつかの一般的な形式の機械読み取り可能媒体は、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、他の磁気媒体、CD-ROM、他の光媒体、パンチカード、紙テープ、穴のパターンを有する他の物理媒体、RAM、PROM、EPROM、FLASH(登録商標)-EPROM、他のメモリチップ又はカートリッジ、及び/又はプロセッサ又はコンピュータが読み取るために適合される他の媒体を含んでもよい。
【0018】
プロセッサ110及び/又はメモリ120は、いずれか適切な物理的配置で配置されてもよい。いくつかの実施形態では、プロセッサ110及び/又はメモリ120は、同じボード、同じパッケージ(例えば、システム・イン・パッケージ)、同じチップ(例えば、システム・オン・チップ)等に実装されてもよい。いくつかの実施形態では、プロセッサ110及び/又はメモリ120は、分散、仮想化及び/又はコンテナ化された計算リソースを含んでもよい。このような実施形態に従って、プロセッサ110及び/又はメモリ120は、1つ以上のデータセンタ及び/又はクラウドコンピューティング施設に配置されてもよい。
【0019】
図示のように、メモリ120は、システム及びモデルを実装及び/又はエミュレートするために、及び/又は本明細書に更に記載される方法のうちいずれかを実装するために使用され得るコモンセンス説明モジュール130を含む。いくつかの例では、コモンセンス説明モジュール130は、コモンセンス推論又は合理化を適用して、予測を展開、導出又は生成するために、また、本明細書に更に記載されるように、コモンセンス推論又は合理化の説明を生成又は提供するために使用されてもよい。いくつかの例では、コモンセンス説明モジュール130はまた、コモンセンス推論又は合理化を適用して予測を生成するために、また、説明を生成又は提供するために使用されるシステム又はモデルの反復訓練及び/又は評価を取り扱ってもよい。いくつかの例では、メモリ120は、1つ以上のプロセッサ(例えば、プロセッサ110)によって実行されると、1つ以上のプロセッサに対して、本明細書に更に詳細に記載される方法を実行させ得る実行可能コードを含む非一時的な有形の機械読み取り可能媒体を含んでもよい。いくつかの例では、コモンセンス説明モジュール130は、ハードウェア、ソフトウェア及び/又はハードウェアとソフトウェアとの組み合わせを使用して実装されてもよい。
【0020】
図示のように、計算デバイス100は、入力としてデータ140及び自然言語説明テキスト145を受信し、これらはコモンセンス説明モジュール130に提供される。入力データ140は、例えば、質問回答(QA)又は何らかの他のNLPタスクのために、分析及び予測するために人工知能、ニューラルネットワーク又はディープラーニングモデルを適用することが望まれる、いずれかの状況、シナリオ、問題等に関連してもよい。いくつかの実施形態では、自然言語説明テキスト145は、コモンセンス推論のための人間の説明を含むことができ、これは、コモンセンス説明(CoS-E)とすることができる。人間の説明は、元の入力インスタンスの中の強調された注釈と同様に、自由形式の自然言語の説明の形式とすることができる。いくつかの実施形態では、自然言語説明テキスト145は、自動生成される説明を含むことができる。自然言語説明テキスト145は、コモンセンス説明モジュール130の微調整又は訓練のために使用できる。いくつかの実施形態では、この訓練は、コモンセンス説明モジュール130によって実行又は実施される1つ以上の反復にわたって行われてもよい。
【0021】
コモンセンス説明モジュール130は、入力データ140に対して、自然言語説明テキスト145を使用して、予測又は結果を展開、導出又は生成し、これを行う際にコモンセンス推論をサポート又は適用するように動作する。モジュール130はまた、その推論又は合理化の説明を生成又は提供してもよい。いくつかの実施形態では、コモンセンス説明モジュール130は、説明を生成できる言語モデル(LM, language model)を実装するか或いは組み込む。いくつかの実施形態では、コモンセンス説明モジュール130は、言語モデル(LM)からの説明に少なくとも部分的に基づいて予測又は結果を展開又は生成するコモンセンス推論モデル(CSRM, commonsense reasoning model)又は分類モデルを実装するか或いは組み込む。いくつかの実施形態では、コモンセンス説明モジュール130は、GPT(Generative Pre-Trained Transformer)言語モデル(Radford他、「Improving language understanding by generative pre-training」、https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language understanding paper.pdfに更に記載されており、本文献を参照により援用する)を使用するか或いは組み込み、質問、回答選択肢、及び人間により生成された説明を条件として、コモンセンスQA訓練データでそれを微調整する。結果及び説明は、計算デバイス100からの出力150として提供される。
【0022】
いくつかの例では、コモンセンス説明モジュール130は、適切な前処理、符号化、復号及び出力層を有する単一層又は多層ニューラルネットワークを含んでもよい。ニューラルネットワークは、実世界の情報を人間のような精度で自動的に分析するための技術として、大きな期待を示している。一般的に、ニューラルネットワークモデルは、入力情報を受信し、入力情報に基づいて予測を行う。実世界の情報を分析するための他の手法は、ハードコードされたプロセス、統計分析等を含んでもよいが、ニューラルネットワークは、機械学習プロセスを使用して、試行錯誤のプロセスによって、次第に予測を行うように学習する。所与のニューラルネットワークモデルは、多数の訓練の例を使用して訓練されてもよく、ニューラルネットワークモデルが人間がなし得る訓練の例からの同様の推論を一貫して行い始めるようになるまで、反復的に進行する。コモンセンス説明モジュール130は、ソフトウェアモジュールとして示されているが、ハードウェア、ソフトウェア及び/又はハードウェアとソフトウェアとの組み合わせを使用して実装されてもよい。
【0023】
[コモンセンス説明(CoS-E)]
いくつかの実施形態によれば、本開示の言語モデルシステム及び方法は、コモンセンス説明(CoS-E)データセット内に存在し得る、コモンセンス推論の人間の説明を使用又は利用してもよい。いくつかの実施形態では、CoS-Eデータセットは、本開示の言語モデルシステム及び方法において使用するために、既存のCommonsenseQAデータセットに加えられるか或いはその上に構築される。CommonsenseQAデータセットは、Talmor他、「COMMONSENSEQA: A Question Answering Challenge Targeting Commensense Knowledge」、arXiv:1811.00937v2、2018年11月2日に記載のように、2つの分割で構成されており、本文献を参照により援用する。いくつかの実施形態では、CoS-Eデータセット及び本開示の言語モデルは、より困難なランダム分割を使用し、これが主評価分割である。CommonsenseQAの各例は、質問q、3つの選択肢c0、c1、c2、及びラベル付き回答aで構成される。CoS-Eデータセットは、なぜaが最も適切な選択肢であるかについて、人間の説明ehを加えている。
【0024】
いくつかの実施形態では、CoS-Eデータセットについてのコモンセンス推論の人間の説明は、例えば、MTurk(Amazon Mechanical Turk)を使用して収集されてもよい。
図2の例に示すように、システムは、人間の参加者に1つ以上の質問210(例えば、「While eating a hamburger with friends, what are people trying to do?」)及び回答選択肢220(例えば、「have fun, tasty, or indigestion」)を提示又は提供するとともに、正解の回答選択肢230(例えば、太字で示す「have fun」等)を提示又は提供する。このシステムは、「なぜ予測される出力が最も適切な回答であるか?」という質問を参加者に促す。参加者は、正解の回答選択肢230を正当化する質問210の中の関連単語(例えば、「hamburger with friends」)をハイライト240し、質問の背後にあるコモンセンス推論として役立ち得るハイライトされた正当化に基づいて、簡潔で自由形式の説明250(例えば、「通常、友人とハンバーガーは楽しい時間を示す」)を提供するように、システムにより命令される。このシステムは、これらの説明を収集し、それぞれ7610及び950の例のサイズを有することができるCommonsenseQAのtrain-random-split及びdev-random-splitに加えるか或いはこれらに基づいて構築する。結果としてのCoS-Eデータセットは、質問、回答選択肢、及び正解の回答選択肢のための自由形式の説明とハイライトされたテキストとの双方を含む。データセット内のハイライトされたテキスト又は単語240は、「CoS-E-selected」と呼ばれてもよく、自由形式の説明250は、「CoS-E-open-ended」と呼ばれてもよい。
【0025】
コモンセンス推論の人間により生成された説明の収集に関して、システムと相互作用する参加者によって提供される自由形式の注釈(例えば、説明250)の品質を制御することは困難になり得る。したがって、いくつかの実施形態では、システムは、明らかに悪い説明を回避又は拒絶するために、ブラウザ内チェックを実行できる。いくつかの実施形態では、人間の注釈者は、質問210において240の関連単語をハイライトしない場合、又は説明250の長さが4単語未満である場合、システムにおいて先に移動することは許容されない。また、システムは、説明250が他の余分な単語のない質問20の部分文字列又は回答選択肢220ではないことをチェックできる。いくつかの実施形態では、システムは、例ごとに1つの注釈者からこれらの説明250を収集する。また、システムは、1つ以上の収集後のチェックを実行して、他のフィルタによって捕捉又は識別されない例を捕捉できる。システムは、テンプレートとして分類され得る説明250をフィルタリング除去してもよい。例えば、形式「<answer>は[correct obvious]である唯一の選択肢である」の説明は、システムによって削除され、その後、同じ又は異なる人間の参加者による注釈のために再提示されてもよい。
【0026】
図3は、いくつかの実施形態において、CoS-Eデータセットにおいて収集された説明の例示的な分布300(例えば、
図2の自由形式の説明250)を示す。
図3に見られるように、CoS-Eデータセットからの説明の58%は、正解の回答選択肢(例えば、正解の回答選択肢230)-状況「A」を含んでいる。説明の7%は、不正解の選択肢(又は問題についての誤った選択肢)-状況「B」を含んでいる。説明の12%は正解と不正解との双方を含んでいるが(A及びB)、説明の23%は正解と不正解とのいずれも含んでいない(AでもBでもない)。説明の42%は質問(例えば、質問210)と二重(bigram)の重複を有しており、説明の22%は質問と三重(trigram)の重複を有している。
【0027】
いくつかの実施形態では、CoS-Eデータセットの人間により生成された説明(例えば、
図2の説明250)は、例えば、コモンセンス及び説明モジュール130によって使用されるために計算デバイス100(
図1)に入力される自然言語説明テキスト145として提供できる。いくつかの実施形態によれば、CoS-Eデータセットは、例えば、モジュール130に実装されるか或いは組み込まれるように、言語モデルシステム及び方法で使用するために、既存のCommonsenseQAデータセットに加えられる。言語モデル(LM)のためにCoS-Eデータセットを使用する有効性は、データセットのこれらの特定の例に制限されない。いくつかの実施形態では、言語モデルは、訓練中にのみCoS-Eデータセットを使用することによって、最先端の結果を取得する。経験による結果は、回答選択肢のいずれとも重複する単語を有さない説明のみを使用する場合であっても、性能はCoS-Eデータセットを全く使用しないベースラインの性能を上回ることを示している。また、かなりの部分の不正解の選択肢がCoS-Eデータセットにも存在することも観察されており、更なる分析では、これらの例について、注釈者は誤った選択肢を排除することによって説明することに努めていることが判明した。これは、CommonsenseQAにおける例の多くについて、人間が推論することが困難であることを示している。CoS-Eはまた、視点の多様性、特に世界の知識に関する多様な推論をCommonsenseQAデータセットに加える。多くの説明は、品質制御チェックの後も雑音の多いままであるが、CoS-Eデータセットの説明は、コモンセンス推論を生成する言語モデルを訓練するのに十分な品質のものである。
【0028】
[コモンセンス自動生成説明(CAGE)]
言語モデルシステム及び方法は、例えば、質問の回答のようなNLPタスクについての予測又は結果を展開、導出又は生成してもよい。いくつかの実施形態によれば、本開示の言語モデルシステム及び方法は、これらの予測又は結果についての推論又は根拠の説明(コモンセンス自動生成説明(CAGE))を生成又は出力する。いくつかの実施形態では、例えば、コモンセンス説明モジュール130に実装されるか或いは組み込まれた言語モデル又はモジュールは、入力データ140及び自然言語説明テキスト145に応じて或いはこれらを使用して、これらの説明を生成する。説明は言語モデルによって生成され、分類モデル又はモジュールへの補足入力として使用される。
【0029】
いくつかの実施形態では、CAGEが提供され、CommonsenseQAタスクに適用される。上記のように、CommonsenseQAの各例は、質問q、3つの回答選択肢c0、c1、c2、及びラベル付きの回答aから構成され、CoS-Eデータセットは、なぜaが最も適切な選択肢であるのかについて人間の説明ehを加える。CAGEの出力は、ehに近いように訓練された言語モデルにより生成された説明eである。
【0030】
いくつかの実施形態によれば、CAGEを分類モデルに供給するために、言語モデル(LM)は、CoS-Eデータセットから説明を生成するように微調整又は修正される。いくつかの実施形態では、本明細書の言語モデルは、Radford他、「Improving Language Understanding by Generative Pre-Training」、https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language understanding paper.pdf、2018に更に詳細に記載されているように、予め訓練されたOpenAIのGPT(Generative Pre-Trained Transformer)を実装するか或いは組み込むことができ、この文献を参照により援用する。GPTは、多層トランスフォーマ(参照により援用するVaswani他、2017を参照する)デコーダである。
【0031】
いくつかの実施形態では、言語モデル(LM)(例えば、GPT)は、CommonsenseQA及びCoS-Eデータセットの組み合わせに関して微調整又は訓練される。これは、例えば、
図4及び
図5に示されている。
図4は、CAGE言語モデル(LM)又はモジュール405を訓練してCoS-Eデータセットから説明を生成する1回のステップを示す。いくつかの実施形態では、言語モデルは、コモンセンス説明モジュール130(
図1)に実装できるか或いはその一部とすることができる。図示のように、言語モデル405は、回答選択肢トークンA
1、A
2、A
3 420、及び以前に人間により生成された説明トークンE
1、...E
i-1 430と連結された質問トークンQ 410に対して訓練されるか或いはこれについて条件付けされる。言語モデル(LM)又はモジュール405は、説明トークンE
i 440を生成するように訓練される。
【0032】
図5は、いくつかの実施形態による言語モジュール又はモデル505の簡略化した図である。いくつかの実施形態では、言語モデル505は、コモンセンス説明モジュール130及び/又は言語モデル405に一致してもよい。いくつかの例では、言語モデル505は、多層ニューラルネットワークである。
図5に示すように、いくつかの実施形態では、この多層ニューラルネットワークは、埋め込みモジュール510及びトランスフォーマモジュール512を含む多層トランスフォーマエンコーダとすることができる。いくつかの実施形態では、埋め込みモジュール510は、埋め込み層(E
1、E
2、...E
N)を含んでもよく、トランスフォーマモジュール512は、1つ以上の層のトランスフォーマ(Trm)を含んでもよい。いくつかの実施形態では、各トランスフォーマ(Trm)は、長短期記憶(LSTM, long short-term memory)で実装できる。言語モデル又はモジュール505は、入力データ140のような質問(Q)及び回答選択肢の形式で構造化ソーステキストxを受信する。いくつかの実施形態では、構造化ソーステキストxは、自然言語形式である。構造化ソーステキストxは埋め込み層(E
1、E
2、...E
N)に渡され、埋め込み層は構造化ソーステキストをトークンx
iに分割する。トークンx
iのそれぞれは単語、数字、タグ等に対応してもよい。いくつかの実施形態では、図示のように、言語モデル又はモジュール505は、トランスフォーマ(Trm)層において制約された自己注意を使用し、各トークンは、その左側のコンテキストのみに注意を向けることができる。これらの左コンテキストのみのトランスフォーマ(Trm)層は、テキスト生成のためのトランスフォーマデコーダとして集合で機能する。生成されるテキスト(T
1、T
2、...T
N)はコモンセンス説明E
iである。いくつかの実施形態では、このような説明は、回答選択肢のうちのどれが質問に対して正しいかを推定するために使用できる。
【0033】
CoS-Eからの人間の説明、又は言語モデル若しくはモジュール(例えば、405又は505)からの推論/説明のいずれかが与えられた場合、本開示のシステム及び方法は、CommonsenseQAタスクに対して予測を実行するように学習できる。いくつかの実施形態では、分類モデル又はモジュールは、例えば、
図6及び
図7に示すように、入力された質問・回答の集合に対して行われる予測を生成又は導出する。
図6は、予測を生成するための分類モデル(CRSM)615の1回のステップを示す。いくつかの実施形態では、分類モデルは、コモンセンス説明モジュール130(
図1)内に実施できるか或いはその一部とすることができる。図示のように、分類モデル又はモジュール615は、回答選択肢トークンA
1、A
2、A
3 620と連結された質問トークンQ 610を受信し、予測トークンA
1 650を生成又は導出する。
【0034】
いくつかの実施形態では、分類モデル又はモジュール615は、Devlin他、「BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding」、arXiv preprint arXiv:1810.04805、2018年10月11日に詳細に記載されているように、BERT(Bidirectional Encoder Representations from Transformers)モデルのような言語表現モデルを実装又は採用してもよく、本文献を参照により援用する。いくつかの実施形態では、分類モデル615はBERTLARGEモデルを実装又は採用でき、このモデルは、単純な2進分類器を追加することによって、複数選択式の質問回答に対して微調整できる。この分類器は、BERTモデルへの全ての入力の開始時に配置された特別な[CLS]トークンに対応する最終状態を入力として受け取る。データセットの各例について、分類モデル615は、BERTLARGEモデルを微調整するための3つの入力シーケンスを構築する。説明は質問の入力表現と同じ入力表現を共有する。
【0035】
図7は、いくつかの実施形態による分類モデル又はモジュール715の簡略化した図である。いくつかの実施形態では、分類モデル715は、コモンセンス説明モジュール130及び/又は分類モデル615に一致してもよい。いくつかの例では、分類モデル715は、多層ニューラルネットワークである。
図7に示すように、いくつかの実施形態では、この多層ニューラルネットワークは、埋め込みモジュール710及びトランスフォーマモジュール712を含む多層トランスフォーマエンコーダとすることができる。いくつかの実施形態では、埋め込みモジュール710は、埋め込み層(E
1、E
2、...E
N)を含んでもよく、トランスフォーマモジュール712は、1つ以上の層のトランスフォーマ(Trm)を含んでもよい。いくつかの実施形態では、トランスフォーマ層の代わりに、長短期記憶(LSTM)層が使用できる。分類モデル又はモジュール715は、入力データ140のような質問(Q)及び回答選択肢の形式で、構造化ソーステキストxを受信する。いくつかの実施形態では、構造化テキストはまた、例えば、訓練された言語モデル(例えば、405又は505)によって生成された説明を含んでもよい。質問、回答選択肢及び説明は入力データにおいて区切り記号[SEP]で区切られる。いくつかの実施形態では、各シーケンスは、質問、区切りトークン[SEP]及び回答選択肢の1つの連結である。この手法がCoS-Eからの説明を必要とする場合、又はCAGEのように自動的に生成される場合、分類モデル又はモジュール715は、質問、[SEP]、説明、[SEP]及び回答選択肢を連結する。構造化ソーステキストxは埋め込み層(E
1、E
2、...E
N)に渡され、埋め込み層は構造化ソーステキストをトークンx
iに分割する。トークンx
iのそれぞれは単語、数字、タグ等に対応してもよい。いくつかの実施形態では、図示のように、分類モデル715は、トランスフォーマ(Trm)層において双方向の自己注意を使用し、各トークンは、その左右のコンテキストに注意を向けることができる。これらのトランスフォーマ(Trm)層は、トランスフォーマエンコーダとして集合で機能する。分類モデル又はモジュール715は、入力の質問に対する回答選択肢のための予測を生成又は導出する。
【0036】
説明及び予測を生成する2つの設定又は可能性は、(1)説明後の予測(「推論」)と(2)予測後の説明(「合理化」)とすることができる。
【0037】
推論:推論は、
図8及び9に関して示されている。
図8は、いくつかの実施形態に従って、人工知能又はディープラーニングモデルによる推論のためのコモンセンス説明を生成するシステム800を示す簡略化した図である。
図9は、システム800に対する対応する方法900の簡略化した図である。方法900のプロセス910~940のうち1つ以上は、少なくとも部分的に、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに対してプロセス910~940のうち1つ以上を実行させ得る、非一時的な有形の機械読み取り可能媒体に記憶された実行可能コードの形式で実装されてもよい。いくつかの実施形態では、システム800は、
図1の計算デバイス100(例えば、コモンセンス説明モジュール130)に実装でき、方法900は、
図1の計算デバイス100(例えば、コモンセンス説明モジュール130)によって実行できる。
【0038】
推論によって、
図8及び
図9に示すように、訓練されたCAGE言語モデル805(言語モデル又はモジュール405及び505に一致してもよい)が、下流の分類又はコモンセンス推論モデル(CSRM)815のための説明840を生成するために使用される。
【0039】
訓練のために、プロセス910において、言語モデル805は、自然言語説明テキストを受信する。いくつかの例では、自然言語説明テキスト(例えば、テキスト145)は、質問q及び回答選択肢c0、c1、c2並びに人間から集められるか或いは人間により展開された説明を含むことができる。
【0040】
いくつかの実施形態では、人間からの説明の収集又は展開のタスクは、2つの部分から構成される。第1の部分において、人間の注釈者は、出力を正当化する質問における関連単語をハイライトするように命令される。第2の部分において、注釈者は、なぜ予測された出力が正しく、他の選択肢ではないのかについて、簡単な自由形式の説明を提供するように求められる。これらの命令は、注釈者が質問の背後にあるコモンセンス推論を実際に提供する説明を提供するように促す。いくつかの実施形態では、自然言語説明テキストは、言語モデル805を訓練、テスト及び実行するために使用される。
【0041】
推論によって、言語モデル(LM)805は、実際に予測されたラベル又は回答aではなく、質問q、回答選択肢c0、c1、c2及び人間により生成された説明ehを条件として微調整される。そこで、訓練中の入力コンテキストCREは以下のように定義される。
CRE="q,c0,c1, or c2?commonsense says"
言語モデル805は、条件付きの言語モデリングの目的に従って説明eを生成するように訓練される。
【0042】
システム800(例えば、言語モデル805)が訓練された後に、プロセス920において、言語モデル805及び分類モデル又はモジュール815は、入力データ(例えば、入力データ140)を受信する。入力データは、人工知能、ニューラルネットワーク又はディープラーニングモデルを適用して分析して予測を行うのに望ましい、いずれかの状況、シナリオ、問題等に関連してもよい。いくつかの実施形態では、図示のように、入力データは質問Q 810及び回答選択肢A1、A2、A3 820を含んでもよい。
【0043】
プロセス930において、言語モデル805は、入力データについての潜在的な予測又は結果のためのコモンセンス推論の説明E 840を生成又は展開する。これは、例えば、
図4及び
図5の言語モデル405及び505に関して説明したように達成できる。機械生成されたコモンセンス説明840は、分類モデル815に提供される。
【0044】
プロセス940において、分類モデル又はモジュール815(これは、分類モデル又はモジュール615及び715に一致してもよい)は、予測又は結果850を展開、導出又は生成するように、入力データ(例えば、質問810及び回答選択肢820のセット)に対して動作する。いくつかの例では、分類モデル815は、その分析においてコモンセンス推論をサポート又は適用するために機械生成された説明840を使用する。これは、例えば、
図6及び
図7の分類モデル615及び715に関して説明したように達成できる。
【0045】
いくつかの実施形態では、目的は、
【0046】
【数1】
を最大化することである。ここで、kはコンテキストウィンドウのサイズである(この場合、kは常にeの長さよりも大きく、それにより、全体の説明がコンテキスト内にある)。条件付き確率Pは、C
RE及び前の説明トークンで条件付けされたパラメータθを用いて、ニューラルネットワークによってモデル化される。この種類の説明は「推論」と呼ばれてもよい。この理由は、これは、コモンセンス質問の回答のために更なるコンテキストを提供するための推測中に生成され得るからである。以下に、この手法がCommonsenseQAに対する報告されている最先端の技術を10%上回ることを示す。
【0047】
コモンセンス推論の結果及び説明は、出力(例えば、コモンセンス説明モジュール130からの出力150)として提供される。
【0048】
合理化:推論の逆の手法が合理化である。合理化は、
図10及び
図11に関して示されている。
図10は、いくつかの実施形態に従って、人工知能又はディープラーニングモデルによる合理化のためのコモンセンス説明を生成するシステム1000を示す簡略化した図である。
図11は、システム1000に対する対応する方法1100の簡略化した図である。方法1100のプロセス1110~1140のうち1つ以上は、少なくとも部分的に、1つ以上のプロセッサによって実行されると、1つ以上のプロセッサに対してプロセス1110~1140のうち1つ以上を実行させ得る、非一時的な有形の機械読み取り可能媒体に記憶された実行可能コードの形式で実装されてもよい。いくつかの実施形態では、システム1100は、
図1の計算デバイス100(例えば、コモンセンス説明モジュール130)に実装でき、方法1100は、
図1の計算デバイス100(例えば、コモンセンス説明モジュール130)によって実行できる。
【0049】
合理化によって、
図10及び
図11に示すように、分類モデル又はモジュール1015(分類モデル又はモジュール615及び715に一致してもよい)は、まず、予測aを行い、次いで、言語モデル又はモジュール1005(言語モデル又はモジュール405及び505に一致してもよい)は、これらのラベルに基づいて説明を生成する。
【0050】
訓練のために、プロセス1110において、分類モデル1015は、予測又は結果1050を展開、導出又は生成するように、入力データ(例えば、質問1010及び回答選択肢1020のセット)に対して動作する。言語モデル又はモジュール1005は、自然言語説明テキストを受信する。いくつかの例では、自然言語説明テキスト(例えば、テキスト145)は、上記のように、質問q及び回答選択肢c0、c1、c2並びに人間から集められるか或いは人間により展開された説明を含むことができる。
【0051】
プロセス1120において、言語モデル1005及び分類モデル1015は、入力データ(例えば、入力データ140)を受信する。入力データは、人工知能、ニューラルネットワーク又はディープラーニングモデルを適用して分析して予測を行うのに望ましい、いずれかの状況、シナリオ、問題等に関連してもよい。いくつかの実施形態では、図示のように、入力データは質問Q 1010及び回答選択肢A1、A2、A3 1020を含んでもよい。
【0052】
プロセス1130において、分類モデル又はモジュール1015は、予測又は結果1050を展開、導出又は生成するように、入力データに対して動作する。これは、例えば、
図6及び
図7の分類モデル又はモジュール615及び715の説明に従って達成できる。結果1050は、言語モデル1015に提供される。
【0053】
合理化では、プロセス1140において、言語モデル1015は、事後の合理化を生成するための入力と共に、言い換えると、予測を展開するために使用される推論の説明と共に、予測ラベルaを条件とする。言語モデル1015の微調整ステップの間に、入力コンテキストCRAは、出力ラベルaを含み、以下のように構成される。
CRA=“q,c0,c1, or c2?a because”
合理化における言語モデル1015についての訓練の目的は、この場合、モデル1015が訓練中に入力の質問への正解ラベルにアクセスすることを除いて、推論におけるものと同様である。
【0054】
言語モデル又はモジュール1015は、予測ラベルに条件付けられているため、説明は、コモンセンス推論とは考えられない。その代わりに、これらは、モデルをよりアクセス可能且つ解釈可能にする「合理化」を提供する。この合理化の手法は、以下に説明するように、最先端のモデルを6%上回ることが判明した。
【0055】
図8~
図11のシステム及び方法に関して、計算デバイス100のような計算デバイスのいくつかの例は、1つ以上のプロセッサ(例えば、プロセッサ110)によって実行されると、1つ以上のプロセッサに対して方法900及び1100のプロセスを実行させ得る実行可能コードを含む、非一時的な有形の機械読み取り可能媒体を含んでもよい。方法900及び1100のプロセスを含んでもよい機械読み取り可能媒体のいくつかの一般的な形式は、例えば、フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、他の磁気媒体、CD-ROM、他の光媒体、パンチカード、紙テープ、穴のパターンを有する他の物理媒体、RAM、PROM、EPROM、FLASH-EPROM、他のメモリチップ又はカートリッジ、及び/又はプロセッサ若しくはコンピュータが読み取るように適合された他の媒体である。
【0056】
[結果]
提案したコモンセンス自動生成説明(CAGE)のバリエーションを使用したCommonsenseQAデータセットに対する結果が提示される。BERTLARGEモデルが、CoS-E又はCAGEを使用しないベースラインとしての役目をする。
【0057】
図12は、CommonsenseQA、CoS-E及びCAGEサンプル(理由及び根拠のため)からの例の集合を示す表1200を示す。いくつかの実施形態では、CAGE推論は、典型的には、CoS-E-open-endedよりも単純な構造を使用することが観察される。それにもかかわらず、この単純な宣言モードは、CoS-E-open-endedよりも情報量が多い場合がある。CAGEを実装する本開示のシステム及び方法は、より明示的なガイダンス(表1200の最終例1202におけるもの)を提供することにより、或いは、意味のあるコンテキストを追加することによって(第3の例1204におけるように、単語「friends」を導入することによって)、これを達成する。表1200から、いくつかの実施形態では、CAGE推論は、回答選択肢のうち少なくとも1つを43%ほど含み、そのうち、モデルの実際の予測された回答選択肢を21%ほど含むことが観察される。これは、CAGE推論の有効性には、回答を直接指摘するよりも多くのことが存在することを示している。
【0058】
表1200から、CAGE合理化及びCAGE推論は、しばしば同じであるか、或いは、単語の順番でのみ或いは回答選択肢の1つを他の回答選択肢に置き換えることによってのみ異なることが観察された。人間はCAGE推論と同様に、CAGE合理化に基づいて42%の回答を予測できた。CAGE合理化は、CAGE推論よりも優れているように思われるが、実際の質問なしに正しい回答を推測しようと試みている間に人間が判断するようなモデルの言語生成挙動を劇的には改善しないことが判明した。
【0059】
更なる実験設定は、回答選択肢からの単語を含まない自由回答の説明のみを使用した。これらの説明は「CoS-E-limited-open-ended」説明と呼ばれてもよい。この理由は、これらの説明が許容される単語の選択において制限されているからである。これらの制限された種類の説明を使用することで、BERTベースラインよりも改善することが観察されており、これは、説明が単に正しいか或いは間違っている回答に言及するだけでなく、有用な情報を提供していることを示している。
【0060】
図13は、本開示の実施形態に従って、CoS-Eからの説明を含む入力を使用して訓練されたシステム及び方法に対して、CommonsenseQA入力のみを使用するBERTベースラインで達成された結果の比較を示す表1300を示す。表1300から分かるように、BERTベースラインモデルは64%の精度に達する。訓練中の質問に加えて、自由形式の人間の説明(CoS-E-open-ended)を加えると、質問・回答モデルによって精度が2%上昇する結果になる。訓練及び検証の双方の間に、CAGE推論(正解で条件付けされていない)で生成された説明をモデルに提供すると、モデルの精度は72%に増加する。
【0061】
この説明及び添付する図面は、態様、実施形態、実現方式又は出願を例示するものであり、限定として解釈されるべきではない。様々な機械的、組成的、構造的、電気的及び動作上の変更は、この説明及び特許請求の範囲の真意及び範囲から逸脱することなく行われてもよい。いくつかの例では、周知の回路、構造又は技術は、本開示の実施形態をあいまいにしないように、詳細には図示又は記載されていない。2つ以上の図面における同様の数字は、同一又は類似の要素を表す。
【0062】
この説明において、本開示に従ったいくつかの実施形態を記載する特定の詳細が記載される。多数の特定の詳細が、実施形態の完全な理解を提供するために記載される。しかし、いくつかの実施形態がこれらの特定の詳細の一部又は全部なしに実施され得ることは、当業者には明らかである。本明細書に開示される特定の実施形態は、例示的であるが、限定的ではないことを意味する。当業者は、本明細書に具体的に記載されていないが、本開示の範囲及び真意内にある他の要素を認識し得る。さらに、不要な繰り返しを回避するために、1つの実施形態に関連して図示及び記載される1つ以上の特徴は、他に特に記載されていないか、或いは、1つ以上の特徴が実施形態を機能しなくする場合を除いて、他の実施形態に組み込まれてもよい。
【0063】
例示的な実施形態について図示及び説明したが、広範囲の修正、変更及び置換が上記の開示において考えられ、いくつかの場合には、実施形態のいくつかの特徴は、他の特徴の対応する使用なしに使用されてもよい。当業者は、多くのバリエーション、代替案及び修正を認識する。したがって、本発明の範囲は、以下の特許請求の範囲によってのみ限定されるべきであり、特許請求の範囲は、本明細書に開示された実施形態の範囲に従って広く解釈されることが適切である。
【国際調査報告】