(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-28
(45)【発行日】2024-11-06
(54)【発明の名称】対照拡張を用いた教師なし文書表現学習
(51)【国際特許分類】
G06F 40/30 20200101AFI20241029BHJP
G06N 3/088 20230101ALI20241029BHJP
G06F 40/216 20200101ALI20241029BHJP
【FI】
G06F40/30
G06N3/088
G06F40/216
(21)【出願番号】P 2023529085
(86)(22)【出願日】2021-11-18
(86)【国際出願番号】 US2021059888
(87)【国際公開番号】W WO2022109134
(87)【国際公開日】2022-05-27
【審査請求日】2023-05-16
(32)【優先日】2021-11-17
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2020-11-20
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】504080663
【氏名又は名称】エヌイーシー ラボラトリーズ アメリカ インク
【氏名又は名称原語表記】NEC Laboratories America, Inc.
(74)【代理人】
【識別番号】100123788
【氏名又は名称】宮崎 昭夫
(74)【代理人】
【識別番号】100127454
【氏名又は名称】緒方 雅昭
(72)【発明者】
【氏名】チェン、 ウェイ
(72)【発明者】
【氏名】チェン、 ハイフォン
(72)【発明者】
【氏名】ニ、 ジンチャオ
(72)【発明者】
【氏名】ルオ、 ドンシェン
【審査官】齊藤 貴孝
(56)【参考文献】
【文献】中国特許出願公開第111831902(CN,A)
【文献】米国特許出願公開第2018/0211164(US,A1)
【文献】国際公開第2020/177230(WO,A1)
【文献】国際公開第2020/170593(WO,A1)
【文献】特開2020-126360(JP,A)
【文献】米国特許出願公開第2019/0130218(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-40/58
G06N 3/00- 3/126
(57)【特許請求の範囲】
【請求項1】
データセットを拡張するための方法であって、
コンピュータが、
オリジナルの文書(120)を
前記コンピュータで実現されるデータ拡張生成器(210)に供給して1つまたは複数の拡張文書(220)を生成し、
前記オリジナルの文書(120)と前記1つまたは複数の拡張文書(220)との間の対照損失(230)を計算し、
前記オリジナルの文書(120)及び前記1つまたは複数の拡張文書(220)を用いてニューラルネットワークを訓練
し(1030)、
Doc2vecCを用いて前記オリジナルの文書の埋め込みを計算し、前記埋め込まれた文書の対照損失を計算することで、前記1つまたは複数の拡張文書のうちの少なくとも1つを生成する、方法。
【請求項2】
前記1つまたは複数の拡張文書のうちの少なくとも1つは、前記オリジナルの文書における単語を類義語に置き換えることで生成される、請求項1に記載の方法。
【請求項3】
前記1つまたは複数の拡張文書のうちの少なくとも1つは、前記オリジナルの文書における単語を、反意語の前に否定接頭辞を備える前記反意語に置き換えることで生成される、請求項1に記載の方法。
【請求項4】
前記1つまたは複数の拡張文書のうちの少なくとも1つは、デジタル画像を回転させる及び/またはぼかすことで生成される、請求項1に記載の方法。
【請求項5】
前記対照損失は、
【数1】
で計算される、請求項
1に記載の方法。
【請求項6】
前記対照損失の合計が、
【数2】
を用いて計算される、請求項
5に記載の方法。
【請求項7】
データセットを拡張するためのシステムであって、
1つまたは複数のプロセッサ(504、505)と、
前記1つまたは複数のプロセッサ(504、505)に動作可能に接続されたメモリ(510、522)と、
前記メモリに保存され、オリジナルの文書(120)から1つまたは複数の拡張文書(220)を生成するように構成されたデータ拡張生成器(210)と、
前記オリジナルの文書(120)と前記1つまたは複数の拡張文書(220)との間の対照損失を計算するように構成された損失計算器(230)と、
を有
し、
前記データ拡張生成器は、Doc2vecCを用いて前記オリジナルの文書の埋め込みを計算し、前記埋め込まれた文書の対照損失を計算することで、前記1つまたは複数の拡張文書のうちの少なくとも1つを生成するようにさらに構成された、システム。
【請求項8】
前記データ拡張生成器は、前記オリジナルの文書における単語を類義語に置き換えることで前記1つまたは複数の拡張文書のうちの少なくとも1つを生成するようにさらに構成された、請求項
7に記載のシステム。
【請求項9】
前記データ拡張生成器は、前記オリジナルの文書における単語を、反意語の前に否定接頭辞を備える前記反意語に置き換えることで、前記1つまたは複数の拡張文書のうちの少なくとも1つを生成するようにさらに構成された、請求項
7に記載のシステム。
【請求項10】
前記データ拡張生成器は、前記1つまたは複数の拡張文書のうちの少なくとも1つは、デジタル画像を回転させる及び/またはぼかすことで、前記1つまたは複数の増補文書のうちの少なくとも1つを生成するようにさらに構成された、請求項
7に記載のシステム。
【請求項11】
前記対照損失が、
【数3】
を用いて計算される、請求項
7に記載のシステム。
【請求項12】
前記対照損失の合計が、
【数4】
を用いて計算される、請求項
11に記載のシステム。
【請求項13】
データセットを拡張するための
手順をコンピュータに実行させるためのプログラムであって、
前記コンピュータに、
オリジナルの文書(120)を
前記コンピュータで実現されるデータ拡張生成器(210)に受信させて1つまたは複数の拡張文書(220)を生成させ
る手順と、
前記オリジナルの文書(120)と前記1つまたは複数の拡張文書(220)との間の対照損失(230)を計算させ
る手順と、
前記オリジナルの文書(120)及び前記1つまたは複数の拡張文書(220)を用いてニューラルネットワークを訓練させる(1030)
手順と、
を実行させ、
Doc2vecCを用いて前記オリジナルの文書の埋め込みを計算し、前記埋め込まれた文書の対照損失を計算することで、前記1つまたは複数の拡張文書のうちの少なくとも1つを生成させるための、
プログラム。
【請求項14】
前記1つまたは複数の拡張文書のうちの少なくとも1つ
を、前記オリジナルの文書における単語を類義語に置き換えることで生成
させるための、請求項
13に記載の
プログラム。
【請求項15】
前記1つまたは複数の拡張文書のうちの少なくとも1つ
を、前記オリジナルの文書における単語を、反意語の前に否定接頭辞を備える前記反意語に置き換えることで生成
させるための、請求項
13に記載の
プログラム。
【請求項16】
前記1つまたは複数の拡張文書のうちの少なくとも1つ
を、デジタル画像を回転させる及び/またはぼかすことで生成
させるための、請求項
13に記載の
プログラム。
【請求項17】
前記対照損失
を、
【数5】
を用いて計算
させ、
前記対照損失の合計
を、
【数6】
を用いて計算
させるための、請求項
13に記載の
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
この出願は、2020年11月29日に出願された米国仮特許出願第63/116,215号及び2021年11月27日に出願された米国特許出願第17/528,394号を基礎とする優先権を主張し、その開示の全てをここに取り込む。
【0002】
本発明は、ニューラルネットワークの訓練に関し、より具体的には、データ拡張技術を用いた対照学習アプローチを使用する教師なし訓練に関する。
【背景技術】
【0003】
深層学習は機械学習の分野であり、コンピュータは深層ニューラルネットワークを利用して徐々に物事を表現及び認識することを学習する。ニューラルネットワークが複数の隠れレイヤを有する場合、それは深層と呼ばれることがある。
【0004】
単語埋め込みは、数値ベクトル空間への単語のマッピングである。word2vec等のアルゴリズムで生成された単語ベクトルは、高次なオリジナルの単語表現をより低次のオリジナルのベクトル空間にマッピングする。単語埋め込みは、機械学習モデルが入力としてベクトル表現に依存する自然言語処理(NLP:natural language processing)タスクで使用される。表現は、ニューラルネットワークのパフォーマンスを向上させることができる単語の意味的及び構文的な情報を提供する場合がある。
【0005】
バッグオブワードアプローチ(bag-of-words approach)は、テキストを、文法または順序情報を持たない単語のセット(語彙)として表現する。バッグオブワードアプローチは、セット内の単語の数に等しい長さを持つ1次元ベクトルにできる。ここで、ベクトル内の位置のゼロ以外の値は、セット内にその単語が存在することを示す。ベクトル内の位置の値は、単語が出現する回数を示してもよい。一部の語順情報を保持するために、個々の単語だけでなく、短い単語シーケンスをベクトルで表すことができるバッグオブnグラム(bag-of-n-grams)アプローチを使用してもよい。
【0006】
語義の曖昧性解消(WSD:word sense disambiguation)は、特定の文脈で単語を使用することで、該単語のどの「語義」(意味)が活性化されるかを決定する問題である。辞書で定義されているように、単語とその考えられる語義が与えられると、システムは文脈における該単語の出現をその語義クラスの1つまたは複数に分類できる。情報抽出とテキストマイニングにおいて、WSDは多くのアプリケーションでテキストの正確な分析に含むことができる。
【発明の概要】
【0007】
本発明の一態様によれば、データセットを拡張するための方法が提供される。本方法は、オリジナルの文書をデータ拡張生成器に供給して1つまたは複数の拡張文書を生成し、オリジナルの文書と1つまたは複数の拡張文書との間の対照損失を計算し、オリジナルの文書及び1つまたは複数の拡張文書を用いてニューラルネットワークを訓練することを含む。
【0008】
本発明の別の態様によれば、データセットを拡張するためのシステムが提供される。本システムは、1つまたは複数のプロセッサと、1つまたは複数のプロセッサに動作可能に接続されたメモリと、メモリに保存され、オリジナルの文書から1つまたは複数の拡張文書を生成するように構成されたデータ拡張生成器と、オリジナルの文書と1つまたは複数の拡張文書との間の対照損失を計算するように構成された損失計算器とを含む。
【0009】
本発明の別の態様によれば、データセットを拡張するためのコンピュータプログラム製品が提供される。コンピュータプログラム製品は、コンピュータで読み取り可能であり、コンピュータに、オリジナルの文書をデータ拡張生成器に受信させて1つまたは複数の拡張文書を生成させ、オリジナルの文書と1つまたは複数の拡張文書との間の対照損失を計算させ、オリジナルの文書及び1つまたは複数の拡張文書を用いてニューラルネットワークを訓練させる。
【0010】
これら及び他の特徴並びに利点は、以下の典型的な実施形態の詳細な説明を添付の図面と併せて読むことで明らかになるであろう。
【0011】
本開示では、後述するように、以下の図面を参照しながら好ましい実施形態について詳細に説明する。
【図面の簡単な説明】
【0012】
【
図1】
図1は、本発明の一実施形態による、表現学習のために拡張文書を利用するための高レベルなシステム/方法を示すブロック/フロー図である。
【0013】
【
図2】
図2は、本発明の一実施形態による、対照拡張を用いた文書埋め込み(DECA)システム/方法を示すブロック/フロー図である。
【0014】
【
図3】
図3は、本発明の一実施形態による、表現学習のために拡張文書を利用するためのニューラルネットワークを示すブロック/フロー図である。
【0015】
【
図4】
図4は、本発明の一実施形態による、表現学習のために拡張文書を利用する深層ニューラルネットワークを示すブロック/フロー図である。
【0016】
【
図5】
図5は、本発明の一実施形態による、本方法及びシステムが適用される例示的な処理システムである。
【発明を実施するための形態】
【0017】
本発明の実施形態によれば、教師なし法において文書表現を学習するためのデータ拡張技術を用いた対照学習アプローチが提供される。データ拡張は、オリジナルのデータよりも品質が比較的低い追加のサンプルを生成する手法である。追加のサンプルの量及び多様性は、コンピュータ映像及び音声分野の様々な学習アルゴリズムで有効性を示している。データ拡張は、画像を回転させる及び/またはぼかす、あるいはテキスト内の単語の類義語置き換え等の変換を適用することで、オリジナルのデータポイントよりも品質が比較的低い、新しくて現実的な訓練データを生成する手法である。例えば、動物や乗り物の画像を別の角度から、遠くから、または部分的に遮って見えるように調整する、あるいは1つまたは複数の拡張文書において、オリジナルの文書の「大きい(large)」という単語を、ビッグ(big)、巨大(huge)、相当な(substantial)及び/または小さくない(not small)の単語に置き換えることができる。このようにして、文書の文脈及び意味を実質的に変更することなく、ニューラルネットワークを訓練するための、特定の主題に関するセットの少数の文書を増やすことができる。
【0018】
様々な実施形態において、教師なしの文書埋め込みタスクのためのシステム及び方法が提供され、これを用いて文書をコンパクトなベクトルに効率的にエンコードし、様々なダウンストリームタスクに使用できるエンコーダを訓練できる。文書の基本的な意味は、そこに現れる単語によって部分的に表現される。文書のいくつかの単語は、文書の意味やラベル付け情報を変更することなく、置き換え、削除または挿入できる。
【0019】
文書の意味を捕えて機械が理解できる表現を取得することは、様々な自然言語処理(NLP:natural language processing)タスクに大きな影響を与える。一実施形態において、対照拡張を用いる文書埋め込みが提供される。次善のベースラインと比べて、分類エラー率が最大で6.4%減少し、分類のパフォーマンスが最大で7.6%向上する。驚くべきことに、分類タスクにおいて、DECA法は、完全教師あり法に匹敵するか、それを超えることがある。高品質な文書埋め込みは、オリジナルの文書の意味を維持する様々な言い換えに対して不変である必要がある。
【0020】
様々な実施形態において、データ不足の問題に対処するため、文書表現学習のための異なる拡張を伴う対照学習を用いることができる。データ拡張技術を用いた対照学習アプローチで、教師なし法において文書表現を学習する。同じまたは類似の意味を維持する新しい文書を生成することで、より多くの情報を含めるために、データ拡張を採用することができる。
【0021】
Doc2vecCは、文書内の全ての単語の埋め込みを単に平均することで文書埋め込みを計算する。Dov2vecは、文脈の単語予測を用いた文書埋め込みを学習できる。文書埋め込み行列は、メモリで保持することが可能であり、単語埋め込みと共に最適化される。
【0022】
文書Diを、意味が維持されたコンパクトな表現にマッピングする関数。文書埋め込みは、オリジナルの文書の意味を維持する様々な言い換えに対して不変にできる。
【0023】
対照学習は、類似度及び対照損失関数に基づいて、データから類似/非類似の表現を学習するフレームワークである。
【0024】
対照損失は、正則化器として対照損失を含み、これは、エンコーダ損失ldと共に最適化される。N個の文書のバッチが与えられる。
【0025】
拡張戦略は、多様に表現された文書を得るために2つの拡張法を使用することが可能であり、1つはシソーラスベースの置き換えであり、もう1つは逆翻訳である。様々な実施形態において、語彙内の単語のみが置き換え候補と見なされる。シソーラスには、文書内の各単語の類義語と反意語のリストを含んでいてもよい。
【0026】
Doc2vecCは、文書内の全ての単語の埋め込みを単に平均することで文書埋め込みを計算する。類義語の置換等、現実的で確率的な拡張例を生成するための単語レベルの操作は、文章レベルや文書レベルのもの等、他の粒度における拡張よりもはるかにうまく機能する。文書表現の学習は、文書の意味論的意味を維持する低次なオリジナルの埋め込みを取得できる。
【0027】
BERTは、セルフアテンション(self-attention)サブレイヤ及びフィードフォワード(feed-forward)サブレイヤを含むトランスフォーマ(Transformer)レイヤを積み重ね、入力シーケンスにおけるトークンをエンコードする。
【0028】
ここで、同じ数字が同一または同様の要素を表す図面、
図1を詳細に参照すると、
図1には、本発明の一実施形態による、表現学習のために拡張文書を利用するための高レベルなシステム/方法が例示的に示されている。
【0029】
深層学習ベースの方法は、ロングテキストNLPタスクのために利用できる。しかしながら、既存の方法で得られる表現の品質は、データ不足の問題、すなわちリソースが少ない場合の情報の欠如によって大きく影響を受ける。より多くの情報を含めることは、リソース不足の問題を解決できる。データ拡張は、比較的品質が低くてよい、オリジナルのデータポイントから追加のサンプルを生成できる。これらの生成された追加の訓練サンプルは、1つまたは複数の拡張された文書が別のニューラルネットワークに提供(例えば、供給)され、訓練のために使用されることで、深層学習法の精度のパフォーマンスを向上させることができる。しかしながら、任意のラベル情報の知識がない教師なしの設定下で適切な拡張技術を選択することは簡単ではない。
【0030】
1つまたは複数の実施形態において、対照文書拡張システム100は、ネガティブ文書110、オリジナルの文書120及び入力された文書110、120、130のそれぞれについて文書埋め込み150を生成する文書エンコーダ140に供給される、拡張文書130を有していてもよい。例えば、犬の画像のオリジナルの文書のネガティブ文書110には、犬以外の画像が含まれるが、拡張文書130のポジティブインスタンスには、例えば回転した、またはぼけた犬の画像が含まれる。同じまたは類似する意味を維持する新しい文書を生成することで、より多くの情報を含む、データ拡張を採用できる。
【0031】
対照学習損失は、異なって拡張されたビューの下で一貫性を最大化することを目的としており、データ固有の選択により所望の不変性を与えることを可能にする。
【0032】
様々な実施形態において、文書エンコーダ140は、文書
【数1】
の低次元埋め込みをそのBoWプレゼンテーションx
iから計算する、
【数2】
で表される関数を実行できる。
【0033】
対照法においてデータ拡張を含めることは、教師なし文書表現学習における埋め込み品質を大幅に改善できる。単純な単語レベルの操作で生成される確率論的な拡張は、文章レベル及び文書レベルの拡張よりもはるかにうまく機能する。
【0034】
様々な実施形態において、文書
【数3】
を意味が維持されたコンパクトな表現にマッピングする関数
【数4】
が学習される。
【0035】
【数5】
は単語列
【数6】
からなるi番目の文書である。ここでT
iは
【数7】
の長さである。
【0036】
【数8】
は、
【数9】
文書のテキストコーパスである。
【0037】
【数10】
は、サイズ
【数11】
を有するコーパス
【数12】
における語彙である。
【0038】
【数13】
は、文書
【数14】
のBoW表現ベクトルであり、ワンホットコーディングと同様に、単語jが文書
【数15】
に現れる時かつその時に限り、
【数16】
である。
【0039】
【数17】
は、次元としてdを用いた、文書
【数18】
のコンパクトな表現である。
【0040】
【数19】
は、
【数20】
に拡張を適用することで生成された文書である。
【0041】
【数21】
は、拡張文書
【数22】
のBoW表現及びコンパクトな表現である。
【0042】
図2は、本発明の一実施形態による、対照拡張(DECA)を用いた文書埋め込みシステム/方法を示すブロック/フロー図である。
【0043】
様々な実施形態において、確率的データ拡張生成器210は、入力されたオリジナルの文書120
【数23】
から新しい拡張文書220
【数24】
を作成する。拡張文書220は、例えば、類義語、バックプロパゲーション及び/または否定的な置き換えによる単語の置き換えで生成できる。様々な実施形態において、文書
【数25】
毎に、拡張文書
【数26】
が、確率的データ拡張モジュール210によって生成される。
【0044】
様々な実施形態において、文書エンコーダ140は、関数
【数27】
を用いてオリジナルの文書120及び新しい拡張文書220の低次元埋め込みを計算できる。Doc2vecCは、単語埋め込みの平均として文書埋め込み
【数28】
を計算するために使用できる。これは、Word2Vecで計算された単語埋め込みに対する線形操作の意味論的意味によって動機付けられる。
【0045】
【数29】
ここで、Uは単語埋め込み行列として機能する。
【0046】
【0047】
ここで、Uは単語埋め込み行列として機能し、ctは文書Dにおけるターゲット単語wtのローカル文脈であり、Vは学習可能な射影行列である。Uを最適化するため、Doc2vecCは、文書を文脈に対する特別なトークンとして扱うことで、CBOW(Continuous Bag of Words Model)モデルを拡張し、ターゲット単語wtの以下の確率を最大化する。
【0048】
Doc2vecCの要素毎の損失関数は、
【0049】
【0050】
【0051】
対照損失は正則化器として導入され、エンコーダ損失
【数33】
と共に最適化され、拡張されたデータを活用して埋め込み品質を向上させる。対照損失は、オリジナルの文書の意味を維持する様々な言い換えに対して不変となるように、埋め込みモデルを単純に正則化する。拡張された事例の一貫性を促進することで、サンプル効率を大幅に向上させることができる。
【0052】
各文書
【数34】
について、N個の文書のバッチに関する確率的データ拡張モジュール210によって拡張文書
【数35】
が生成される。
【数36】
はポジティブペアとして扱われ、他のN-1ペア
【数37】
はネガティブペアと見なされる。対照損失は、入力文書
【数38】
のバッチ内の拡張文書から
【数39】
を識別することを目的とする。
【0053】
サンプルワイズの対照損失は、以下のとおりである。
【0054】
【0055】
ここで、
【数41】
は、埋め込み関数によって計算された文書埋め込みである。cos()はベクトル間の余弦類似度を表し、τは温度パラメータである。
図2において、
【数42】
は、それぞれx
*
i及びh
*
iで表されている。
【0056】
【0057】
正則化項として対照損失
【数44】
を用いると、目的関数は以下の損失関数を最小化する。
【0058】
損失計算器230は、対照損失
【数45】
の一貫性の損失を計算できる。対照損失は、ポジティブペアが類似し、ネガティブペアが類似していないことを意味する。これは、1つのサンプルと拡張されたサンプルとの間の一貫性す。
【0059】
SimSaimフレームワーク内で、バッチ正規化による予測MLPが最初に適用されて、出力ベクトル
【数46】
が得られる。
【数47】
との間のネガティブコサイン類似度を最小化できる。解の破綻を回避するため、停止勾配を使用できる。
【0060】
関数D(・;)は、ネガティブ余弦類似度である。
【0061】
【0062】
ここで、λは、2つの損失成分間のトレードオフを設定するためのハイパーパラメータである。
【0063】
BERTがバックボーンとして採用される場合、対照損失
【数49】
を用いてBERTを直接微調整する。
【0064】
オリジナルの文書の意味を効率的な方法で保存する現実的な拡張例を生成することは簡単ではない。入力文書は、類義語、否定接頭辞を含む反意語またはそれらの頻度に基づいて単語を置き換えることで言い換えが可能であり、同時にその意味を維持できる。類義語置き換えでは、単語毎に、まずWordNet Synsetsを用いて置き換え候補のセットを抽出し、語彙外の候補や頻度の低い候補を除去する。効率的な計算のために、オリジナルの単語も類義語セットに含める。拡張文書を生成するため、単語毎に、置き換え候補のセットから単語をランダムに選択する。
【0065】
否定反意語置き換えの場合、形容詞または動詞は、「非」等の否定接頭辞を備える反意語に置き換えることができる。
【0066】
情報価値のない単語置き換えの場合、頻度の低い単語を頻度の高い類義語に置き換えることができる。
【0067】
文書の基本的な意味は、文書自体によって部分的にしか表現されない場合がある。
【0068】
逆翻訳は、最初に文書Dをオリジナルの言語(この研究では英語)からドイツ語やフランス語等の別の言語に翻訳してD'を得る。続いて、文書D'は、拡張文書D*としてオリジナルの言語に翻訳される。文書レベルの逆翻訳は、意味を維持しながら、多様性の高い言い換えを生成できる。
【0069】
感情分析(MR、IMDB)、ニュース分類(R8、R52、20news)、医学文献(Ohsumed)等を含む、幅広い文書コーパスが採用される。
【0070】
出力次元が768であるトランスフォーマーベースのモデルを除いて、埋め込み次元は100に設定される。各データセットについて、まず全ての文書を用いてそれぞれの埋め込みを学習する。次に、これらの文書の埋め込みは、線形分類とクラスタリングの2つのダウンストリームタスクで評価される。
【0071】
ロジスティック回帰が分類器として採用され、テストエラー率が評価基準として使用される。
【0072】
DECAで使用されるデータ拡張は、比較的低品質の新しい文書を生成し、テキストデータセットの多様性を豊かにし、リソース不足の問題に対処する。また、DECAは、拡張されたテキストに導入されたノイズに対してよりロバストである。これにより、DECAは様々な拡張方法をより柔軟に選択できるようになり、より高品質な埋め込みが可能になる。新しく生成された文書とオリジナルの文書を用いてニューラルネットワークを訓練できる。
【0073】
ニューラルネットワークは、追加の実験によるデータへさらすことを通じてその機能及び精度を改善する一般化されたシステムである。ニューラルネットワークは、実験によるデータにさらされることで訓練される。訓練中、ニューラルネットワークは、入力される実験によるデータに適用される複数の重みを格納して調整する。調整された重みをデータに適用することで、データはクラスのセットから特定の予め定義されたクラスに属するものとして識別できる、または入力データが各クラスに属する確率を出力できる。
【0074】
事例のセットからの訓練データとしても知られる実験によるデータは、値の文字列としてフォーマットされ、ニューラルネットワークの入力に供給される。各事例は、既知の結果または出力に関連付けることができる。各事例は、(x、y)のペアとして表すことができる。ここで、xは入力データを表し、yは既知の出力を表す。入力データは、様々な異なるデータタイプを含んでいてもよく、複数の異なる値を含んでいてもよい。ネットワークは、事例の入力データを構成する各値に対して1つの入力ノードを備えることが可能であり、各入力値に個別の重みを適用できる。入力データは、構築及び訓練されるニューラルネットワークのアーキテクチャに応じて、例えば、ベクトル、アレイまたは文字列としてフォーマットできる。
【0075】
ニューラルネットワークは、入力データから生成されたニューラルネットワークの出力を事例の既知の値と比較し、格納された重みを調整して出力の値と既知の値との差を最小化することで「学習」する。調整は、誤差逆伝播法を通して格納された重みに対して行うことができる。この場合、出力の値に対する重みの効力は、数学的な勾配を計算し、出力を最小の差にシフトするように重みを調整することで決定できる。勾配降下アプローチと呼ばれるこの最適化は、訓練を実行する方法の非限定的な一例である。訓練に使用されなかった既知の値を備える事例のサブセットを用いて、ニューラルネットワークの精度をテスト及び検証できる。
【0076】
動作中、訓練されたニューラルネットワークは、一般化によって訓練または検証で先に使用されなかった新しいデータに対して用いることができる。ニューラルネットワークの調整された重みは、新しいデータに適用できる。重みは、訓練事例から策定された関数を推定する。重みによって取得される、推定された関数のパラメータは、統計的推論に基づいている。
【0077】
例えば、ニューラルネットワークが先に入力されたデータから次の入力の性質を予測することを意図している場合、ニューラルネットワークは、入力データの時間変化を取得するように構成できる。これは、後続の各データ値を入力する際に時間遅延を設けることで達成できる。これは、データ自体が固有の時間シーケンスを有するシーケンスでノードを入力データにさらすことで、入力データの短期記憶を提供できる。
【0078】
ニューラルネットワークのメモリは、ノードで生成された出力を、入力として時間遅延を伴って戻すことで増加させることができる。これにより、先に入力されたデータが、その後に入力されたデータの出力に影響を与える。但し、先のデータの影響は直ぐに低下する可能性がある。
【0079】
図3は、本発明の一実施形態による、表現学習のために拡張文書を利用するためのニューラルネットワークを示すブロック/フロー図である。
【0080】
階層型のニューラルネットワークでは、複数のノードが層状に配置される。例示的なシンプルなニューラルネットワークは、ソースノード1022の入力レイヤ1020と、出力ノードとしても機能する1つまたは複数の計算ノード1032を備える単一の計算レイヤ1030とを有する。ここで、入力事例が分類されると考えられるカテゴリ毎に単一の計算ノード1032が存在する。入力レイヤ1020は、入力データ1010におけるデータ値1012の数に等しい数のソースノード1022を有していてもよい。入力データ1010のデータ値1012は、列ベクトルとして表すことができる。計算レイヤ1030の各計算ノード1032は、入力ノード1020に供給された入力データ1010から重みの値の線形結合を生成し、合計に微分可能な非線形活性化関数を適用する。例示的なシンプルなニューラルネットワークは、線形に分離可能な事例(例えば、パターン)に対して分類を実行できる。
【0081】
図4は、本発明の一実施形態による、表現学習のために拡張文書を利用するための深層ニューラルネットワークを示すブロック/フロー図である。
【0082】
多層パーセプトロン等の深層ニューラルネットワークは、ソースノード1022の入力レイヤ1020と、1つまたは複数の計算ノード1032を備える1つまたは複数の計算レイヤ1030と、入力事例を分類できると考えられるカテゴリ毎に単一の出力ノード1042がある、出力レイヤ1040とを有する。入力レイヤ1020は、入力データ1010におけるデータ値1012の数に等しい数のソースノード1022を有していてもよい。計算レイヤ1030における計算ノード1032は、ソースノード1022と出力ノード1042との間にあり、直接観察されないため、隠れレイヤとも呼ばれる。計算レイヤの各ノード1032、1042は、先のレイヤのノードから出力された値から重みの値の線形結合を生成し、線形結合の範囲にわたって微分可能な非線形活性化関数を適用する。先の各ノードからの値に適用される重みは、例えば、w1、w2、...、wn-1、wnで表すことができる。出力レイヤは、入力データに対するネットワークの全体的な応答を提供する。深層ニューラルネットワークは全結合にしてもよい。この場合、計算レイヤの各ノードは先のレイヤの全ての他のノードに接続される、またはレイヤ間を接続する他の構成を有する場合がある。ノード間のリンクが欠落している場合、ネットワークは部分的に接続されていると見なされる。
【0083】
深層ニューラルネットワークの訓練は、2つの段階、すなわち各ノードの重みが固定されて、入力がネットワークを介して伝播するフォーワード段階と、エラー値がネットワークを通して逆方向に伝搬されて、重みの値が更新されるバックワード段階とを含む。パラメータU、Vは、誤差逆伝播法によって更新できる。
【0084】
1つまたは複数の計算(隠れ)レイヤ1030における計算ノード1032は、特徴空間を生成する入力データ1012に対して非線形変換を実行する。クラスまたはカテゴリは、オリジナルのデータ空間よりも特徴空間でより簡単に分離できる。
【0085】
図5は、本発明の一実施形態による、本方法及びシステムが適用され得る例示的な処理システムである。
【0086】
処理システム500は、少なくとも1つのプロセッサ(CPU)504を含んでいてもよく、システムバス502を介して他のコンポーネントに動作可能に接続されたベクトル計算/操作を実行できるグラフィック処理(GPU)505を有していてもよい。システムバス502には、キャッシュ506、読み取り専用メモリ(ROM)508、ランダムアクセスメモリ(RAM)510、入出力(I/O)アダプタ520、サウンドアダプタ530、ネットワークアダプタ540、ユーザインタフェースアダプタ550及び/またはディスプレイアダプタ560もまたシステムバス502に動作可能に接続される。
【0087】
第1の記憶装置522及び第2の記憶装置524は、I/Oアダプタ520によってシステムバス502に動作可能に接続され、拡張文書を生成するためのリカレントニューラルネットワークが、本明細書で説明する機能を実現するために保存される。記憶装置522及び524は、ディスク記憶装置(例えば、磁気または光ディスク記憶装置)、ソリッドステート記憶装置、磁気記憶装置等のいずれであってもよい。記憶装置522及び524は、同じタイプの記憶装置であってもよく、異なるタイプの記憶装置であってもよい。対照文書拡張システム100は、記憶装置524に記憶され、少なくとも1つのプロセッサ(CPU)504及び/またはグラフィックス処理(GPU)505によって実現される。
【0088】
スピーカ532は、サウンドアダプタ530によってシステムバス502に動作可能に接続されている。トランシーバ542は、ネットワークアダプタ540によってシステムバス502に動作可能に接続されている。ディスプレイ装置562は、ディスプレイアダプタ560によってシステムバス502に動作可能に接続されている。
【0089】
第1のユーザ入力装置552、第2のユーザ入力装置554及び第3のユーザ入力装置556は、ユーザインタフェースアダプタ550によってシステムバス502に動作可能に接続されている。ユーザ入力装置552、554及び556は、キーボード、マウス、キーパッド、画像キャプチャ装置、モーション感知装置、マイクロフォン、あるいはこれらの装置のうちの少なくとも2つの装置の機能を組み込んだ装置等のいずれであってもよい。もちろん、本発明の原理の主旨を維持しながら、他のタイプの入力装置を使用することもできる。ユーザ入力装置552、554及び556は、同じタイプのユーザ入力装置であってもよく、異なるタイプのユーザ入力装置であってもよい。ユーザ入力装置552、554及び556は、処理システム500に情報を入力し、処理システム500から情報を出力するために使用される。
【0090】
様々な実施形態において、処理システム500は、当業者であれば容易に思いつくような他の要素(図示せず)を含んでもよく、特定の要素を省略することも可能である。例えば、当業者であれば容易に理解できるが、処理システム500には、その詳細な実装に応じて他の様々なタイプの入力装置及び/または出力装置を含むことができる。例えば、無線及び/または有線による様々な入力装置及び/または出力装置を使用できる。さらに、当業者であれば容易に理解できるが、様々な構成の追加プロセッサ、コントローラ、メモリ等を使用することも可能である。処理システム500の上記及び他の変形例は、本明細書で提供される本原理の教示によって当業者であれば容易に考えられるであろう。
【0091】
さらに、処理システム500は、本方法/システムのそれぞれの実施形態を実施するためのシステムであることを理解されたい。処理システム500の一部または全部は、
図1及び2の要素のうちの1つまたは複数で実現されてもよい。さらに、処理システム1000は、例えば、
図1及び
図2の方法の少なくとも一部を含む、本明細書に記載の方法の少なくとも一部を実行できることを理解されたい。
【0092】
本明細書に記載する実施形態は、全てハードウェアで実現してもよく、全てソフトウェアで実現してもよく、ハードウェアとソフトウェアの両方の要素を含んでいてもよい。好ましい実施形態において、本発明は、ファームウェア、常駐ソフトウェア、マイクロコード等を含むが、これらに限定されないソフトウェアでも実現可能である。
【0093】
実施形態には、コンピュータもしくは任意の命令実行システムによって使用される、または関連して使用されるプログラムコードを提供する、コンピュータで使用可能な、またはコンピュータで読み取り可能な媒体からアクセスできる、コンピュータプログラム製品を含んでもいてよい。コンピュータで使用可能な、またはコンピュータで読み取り可能な媒体には、命令実行システム、機器、もしくは装置によって使用される、または関連して使用されるプログラムを格納、伝達、伝搬または転送する任意の機器を含んでいてもよい。該媒体は、磁気媒体、光学媒体、電子媒体、電磁気媒体、赤外線媒体または半導体システム(または機器もしくは装置)、あるいは伝搬媒体であってもよい。該媒体には、半導体または固体メモリ、磁気テープ、取り外し可能なコンピュータディスケット、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、リジッド磁気ディスク及び光ディスク等のコンピュータで読み取り可能な媒体を含んでいてもよい。
【0094】
各コンピュータプログラムは、汎用または特別な目的を持つプログラム可能なコンピュータで読み取ることができる、機械で読み取り可能なストレージメディアまたは装置(例えば、プログラムメモリまたは磁気ディスク)に格納される。該コンピュータプログラムは、ストレージメディアまたは装置から本明細書に記載された手順を実行するコンピュータで読み出される、該コンピュータの設定及び制御動作のためのものである。本発明のシステムには、本明細書に記載した機能を実行する、特定の及び事前に定義された方法をコンピュータに動作させるように構成されたコンピュータプログラムを含む、コンピュータで読み取り可能なストレージメディアも考慮される。
【0095】
プログラムコードを格納及び/または実行するのに適したデータ処理システムは、システムバスを介してメモリ要素に直接または間接的に接続された少なくとも1つのプロセッサを備えていてもよい。このメモリ要素には、処理の実行中にバルクメモリ装置からコードが検索される回数を減らすために、プログラムコードの実際の実行中に用いられるローカルメモリ、バルクメモリ装置及び少なくともいくつかのプログラムコードを一時的に記憶するキャッシュメモリを備えていてもよい。入出力またはI/O装置(限定されるものではないが、キーボード、ディスプレイ、ポインティング装置等を含む)は、直接またはI/Oコントローラを介してシステムに接続されてもよい。
【0096】
ネットワークアダプタは、データ処理システムが、プライベートネットワークまたは公衆ネットワークを介して、他のデータ処理システムまたはリモートプリンタもしくはメモリ装置に接続されることを可能にするために、上記システムと接続されていてもよい。モデム、ケーブルモデム及びイーサネット(登録商標)カードは、現在利用可能なタイプのネットワークアダプタのほんの一例である。
【0097】
本明細書で用いる「ハードウェアプロセッササブシステム」または「ハードウェアプロセッサ」という用語は、1つ以上の特定のタスクを実行するために協働するプロセッサ、メモリ、ソフトウェアまたはそれらの組み合わせを指すことができる。有用な実施形態において、ハードウェアプロセッササブシステムは、1つまたは複数のデータ処理要素(例えば、論理回路、処理回路、命令実行装置等)を含むことができる。1つまたは複数のデータ処理要素は、中央処理装置、グラフィックス処理装置及び/または個別のプロセッサまたはコンピューティング要素ベースのコントローラ(例えば、論理ゲート等)を含めることができる。ハードウェアプロセッササブシステムは、1つ以上のオンボードメモリ(例えば、キャッシュ、専用メモリアレイ、読み出し専用メモリ等)を含むことができる。任意の実施形態において、ハードウェアプロセッササブシステムは、オンボードまたはオフボードとすることができる、またはハードウェアプロセッササブシステム(例えば、ROM、RAM、基本入出力システム(BIOS)等)で用いるための専用の1つ以上のメモリを含むことができる。
【0098】
いくつかの実施形態において、ハードウェアプロセッササブシステムは、1つまたは複数のソフトウェア要素を含み、実行することができる。1つまたは複数のソフトウェア要素は、オペレーティングシステム及び/または1つまたは複数のアプリケーション及び/または特定の結果を達成するための特定のコードを含むことができる。
【0099】
他の実施形態において、ハードウェアプロセッササブシステムは、指定された結果を達成するために1つまたは複数の電子処理機能を実行する専用回路を含むことができる。そのような回路は、1つまたは複数の特定用途向け集積回路(ASIC)、フィールドプログラマブルゲートアレイ(FPGA)及び/またはプログラマブルロジックアレイ(PLA)を含むことができる。
【0100】
ハードウェアプロセッササブシステムのこれら及び他の変形例もまた、本発明の実施形態によって考えられる。
【0101】
本明細書では本発明の「一実施形態」または「一実施形態」、並びにその他の変形形態に言及し、実施形態に関連して説明した特定の機能、構成、特徴などが、本発明の少なくとも1つの実施形態に含まれることを意味する。したがって、「一実施形態において」または「一実施形態において」という語句の出現、並びに本明細書全体を通して様々な場所に出現する任意の他の変形形態は、必ずしも全てが同じ実施形態を参照しているわけではない。しかしながら、本明細書で提供される本発明の教示が与えられると、1つまたは複数の実施形態の特徴を組み合わせることができることを理解されたい。
【0102】
例えば、「A/B」、「A及び/またはB」、並びに「A及びBのうちの少なくとも1つ」の場合における「/」、「及び/または」、並びに「うちの少なくとも1つ」のうちのいずれかの使用は、第1に挙げた選択肢(A)のみの選択、第2に挙げた選択肢(B)のみの選択、または両方の選択肢(A及びB)の選択を含むことを意図したものと理解すべきである。さらに例を挙げれば、「A、B及び/またはC」、並びに「A、B及びCのうちの少なくとも1つ」の場合、このような表現法は、第1に挙げた選択肢(A)のみの選択、第2に挙げた選択肢(B)のみの選択、第3に挙げた選択肢(C)のみの選択、第1及び第2に挙げた選択肢(A及びB)のみの選択、第1及び第3に挙げた選択肢(A及びC)のみの選択、第2及び第3に挙げた選択肢(B及びC)のみの選択、または3つの選択肢全て(A及びB及びC)の選択を含むことを意図したものである。上述した例は、当業者に容易に明らかとなるように、列挙される多数の項目に応じて拡大適用される。
【0103】
上記は、あらゆる観点において説明的かつ典型的であって限定的でないものと理解されるべきであり、本明細書で開示する本発明の範囲は、詳細な説明から決定されるべきではなく、特許法で認められた最大限の広さに基づいて解釈される特許請求の範囲から決定されるべきである。本明細書中に図示及び記載されている実施形態は、本発明の原理を説明するものにすぎず、本発明の範囲及び主旨から逸脱することなく当業者は様々な変更を実施することができることを理解されたい。当業者は、本発明の範囲及び精神から逸脱することなく、様々な他の特徴の組み合わせを実施できる。以上、本発明の態様について、特許法で要求される細部及び詳細な事項と共に説明したが、特許証で保護されることを要求する特許請求の範囲は、添付の特許請求の範囲に示されている。