IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エヌ・ティ・ティ・コムウェア株式会社の特許一覧

特開2023-135199対話テキスト生成装置、対話テキスト生成方法、およびプログラム
<>
  • 特開-対話テキスト生成装置、対話テキスト生成方法、およびプログラム 図1
  • 特開-対話テキスト生成装置、対話テキスト生成方法、およびプログラム 図2
  • 特開-対話テキスト生成装置、対話テキスト生成方法、およびプログラム 図3
  • 特開-対話テキスト生成装置、対話テキスト生成方法、およびプログラム 図4
  • 特開-対話テキスト生成装置、対話テキスト生成方法、およびプログラム 図5
  • 特開-対話テキスト生成装置、対話テキスト生成方法、およびプログラム 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023135199
(43)【公開日】2023-09-28
(54)【発明の名称】対話テキスト生成装置、対話テキスト生成方法、およびプログラム
(51)【国際特許分類】
   G06F 40/56 20200101AFI20230921BHJP
   G06F 40/35 20200101ALI20230921BHJP
【FI】
G06F40/56
G06F40/35
【審査請求】有
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2022040286
(22)【出願日】2022-03-15
(71)【出願人】
【識別番号】397065480
【氏名又は名称】エヌ・ティ・ティ・コムウェア株式会社
(74)【代理人】
【識別番号】100083806
【弁理士】
【氏名又は名称】三好 秀和
(74)【代理人】
【識別番号】100101247
【弁理士】
【氏名又は名称】高橋 俊一
(74)【代理人】
【識別番号】100095500
【弁理士】
【氏名又は名称】伊藤 正和
(72)【発明者】
【氏名】川前 徳章
【テーマコード(参考)】
5B091
【Fターム(参考)】
5B091CA21
5B091EA01
(57)【要約】      (修正有)
【課題】発話のコンテキストを反映した発話を生成する対話テキスト生成技術を提供する。
【解決手段】対話システム1は、学習部10と生成部20を備える。学習部は、発話者の属性が付与された発話テキストを入力し、前の発話テキストと次の発話テキストから単語を抽出し、トークンの種別毎に他のトークンへのアクセスを制御するマルチビューアテンションメカニズムを導入したTransformerに前の発話テキストの単語と属性を条件として、また、次の発話テキストの単語を出力結果として入力し、属性の予測精度を表す目的関数と前の発話テキストと次の発話テキストとの噛合い度合いを表す目的関数を最小化するようにTransformerを学習する。生成部は、直前の発話テキストと発話者の属性を学習済みのTransformerに入力し、Transformerから再帰的に出力される単語を繋げて発話者の次の発話となる応答テキストを生成する。
【選択図】図2
【特許請求の範囲】
【請求項1】
発話に対する応答テキストを生成する対話テキスト生成装置であって、
発話者の属性が付与された発話テキストを入力し、前の発話テキストと次の発話テキストから単語を抽出し、トークンの種別ごとに他のトークンへのアクセスを制御するマルチビューアテンションメカニズムを導入したTransformerに前記前の発話テキストの単語と前記属性を条件、前記次の発話テキストの単語を出力結果として入力し、前記属性の一部を除いたときの前記属性の予測精度を表す目的関数と前記前の発話テキストと前記次の発話テキストとの噛合い度合いを表す目的関数を最小化するようにTransformerを学習する学習部と、
直前の発話テキストと発話者の属性を学習済みのTransformerに入力し、Transformerから再帰的に出力される単語をつなげて発話者の次の発話となる応答テキストを生成する生成部を備える
対話テキスト生成装置。
【請求項2】
請求項1に記載の対話テキスト生成装置であって、
前記マルチビューアテンションメカニズムは、前記属性のトークンについては全てのトークンへのアクセスを可能とし、前記次の発話テキストの単語のトークンについては前記属性のトークンの全てと当該単語よりも前に出現した単語のトークンへのアクセスを可能とする自己アテンションマスクを備える
対話テキスト生成装置。
【請求項3】
請求項1または2に記載の対話テキスト生成装置であって、
前記学習部は、一連の対話における発話テキストを入力し、前記前の発話テキストと次の発話テキストを1つずつずらしながら学習する
対話テキスト生成装置。
【請求項4】
発話に対する応答テキストを生成する対話テキスト生成方法であって、
コンピュータが、
発話者の属性が付与された発話テキストを入力し、前の発話テキストと次の発話テキストから単語を抽出し、トークンの種別ごとに他のトークンへのアクセスを制御するマルチビューアテンションメカニズムを導入したTransformerに前記前の発話テキストの単語と前記属性を条件、前記次の発話テキストの単語を出力結果として入力し、前記属性の一部を除いたときの前記属性の予測精度を表す目的関数と前記前の発話テキストと前記次の発話テキストとの噛合い度合いを表す目的関数を最小化するようにTransformerを学習し、
直前の発話テキストと発話者の属性を学習済みのTransformerに入力し、Transformerから再帰的に出力される単語をつなげて発話者の次の発話となる応答テキストを生成する
対話テキスト生成方法。
【請求項5】
請求項4に記載の対話テキスト生成方法であって、
前記マルチビューアテンションメカニズムは、前記属性のトークンについては全てのトークンへのアクセスを可能とし、前記次の発話テキストの単語のトークンについては前記属性のトークンの全てと当該単語よりも前に出現した単語のトークンへのアクセスを可能とする自己アテンションマスクを備える
対話テキスト生成方法。
【請求項6】
請求項4または5に記載の対話テキスト生成方法であって、
一連の対話における発話テキストを入力し、前記前の発話テキストと次の発話テキストを1つずつずらしながら学習する
対話テキスト生成方法。
【請求項7】
請求項1ないし3のいずれかに記載の対話テキスト生成装置の各部としてコンピュータを動作させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、対話テキスト生成装置、対話テキスト生成方法、およびプログラムに関する。
【背景技術】
【0002】
AIの応用分野の一つである自然言語処理の世界ではテキストの自動生成が登場している。近年のAIで自動生成されたテキストは人間が書いたテキストと見分けるのが難しいぐらいの品質である。この応用として、人間と対話が可能な発話生成への適用が進んでいる。従来のモデルは一般的な会話が可能であるが、ビジネスやサービスへの適用には個々の領域にあわせてモデルをカスタマイズ(再学習)する必要がある。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Sergey Golovanov, Rauf Kurbanov, Sergey Nikolenko, Kyryl Truskovskyi, Alexander Tselousov, and Thomas Wolf, "Large-Scale Transfer Learning for Natural Language Generation", In ACL, 2019, 6053-6058
【非特許文献2】Yu Cao, Wei Bi, Meng Fang, and Dacheng Tao, D. "Pretrained Language Models for Dialogue Generation with Multiple Input Sources", In EMNLP, 2020, 909-917
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、再学習により一般的な発話への応答精度が低くなったり、生成する発話が言語として崩れてくることがあったり、再学習前のモデルとのバランスをとるのが難しいという課題がある。加えて発話のコンテキスト(発話者の属性やこれまでの発話内容)を再学習で反映するのが難しいという課題がある。
【0005】
本発明は、上記に鑑みてなされたものであり、再学習前のモデルと再学習後のモデルをバランスよく結合し、発話のコンテキストを反映した発話を生成する対話テキスト生成技術を提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明の一態様の対話テキスト生成装置は、発話に対する応答テキストを生成する対話テキスト生成装置であって、発話者の属性が付与された発話テキストを入力し、前の発話テキストと次の発話テキストから単語を抽出し、トークンの種別ごとに他のトークンへのアクセスを制御するマルチビューアテンションメカニズムを導入したTransformerに前記前の発話テキストの単語と前記属性を条件、前記次の発話テキストを出力結果として入力し、前記属性の一部を除いたときの前記属性の予測精度を表す目的関数と前記前の発話テキストと前記次の発話テキストとの噛合い度合いを表す目的関数を最小化するようにTransformerを学習する学習部と、直前の発話テキストと発話者の属性を学習済みのTransformerに入力し、Transformerから再帰的に出力される単語をつなげて発話者の次の発話となる応答テキストを生成する生成部を備える。
【発明の効果】
【0007】
本発明によれば、再学習前のモデルと再学習後のモデルをバランスよく結合し、発話のコンテキストを反映した発話を生成する対話テキスト生成技術を提供できる。
【図面の簡単な説明】
【0008】
図1図1は、本実施形態の対話システムの構成の一例を示す図である。
図2図2は、本実施形態で提案する深層学習モデルの一例を示す図である。
図3図3は、自己アテンションマスクの一例を示す図である。
図4図4は、学習処理の流れの一例を示すフローチャートである。
図5図5は、学習データの一例を示す図である。
図6図6は、対話生成処理の流れの一例を示すフローチャートである。
【発明を実施するための形態】
【0009】
[システム構成]
以下、本発明の実施の形態について図面を用いて説明する。
【0010】
本実施形態の対話システムは、発話の生成を発話のコンテキスト(発話履歴や発話者の属性)を条件とする条件付きテキスト生成と解釈し、直前までの発話を含む発話テキストと発話者の属性(生成する発話テキストの発話者の属性)をコンテキストとして与えると、条件に応じた次の発話テキストを生成するシステムである。例えば、直前の発話テキストとして“May I help you?”を入力し、発話者の属性として「発話者A」を入力すると、“Yes, please.”のように、発話者Aによる次の発話テキストを生成する。同じ発話テキストを与えても、発話者の属性を「発話者B」に変えて入力すると、“No, thank you.”のように、発話者の属性により異なる発話テキストを生成する。発話者の属性は、例えば、発話者の識別子、年齢、職業、あるいは場所などである。発話者の複数の属性が入力されてもよい。
【0011】
図1は、本実施形態の対話システムの構成の一例を示す図である。図1に示す対話システム1は、学習部10、生成部20、データ保存部30、計算結果記憶部40、および入出力部50を備える。対話システム1が備える各部は、演算処理装置、記憶装置等を備えたコンピュータにより構成して、各部の処理がプログラムによって実行されるものとしてもよい。このプログラムは対話システム1が備える記憶装置に記憶されており、磁気ディスク、光ディスク、半導体メモリなどの記録媒体に記録することも、ネットワークを通して提供することも可能である。
【0012】
学習部10は、各発話に発話者の属性が付与された一連の発話テキストを学習データとして入力し、連続する2つの発話テキストを単語に分割し、前の発話テキストの単語と発話者の属性を条件として入力し、属性を単語と同じ意味空間に配置できるようにモデルを学習するとともに、前の発話テキストに対応する次の発話テキストを生成するようにモデルを学習する。
【0013】
生成部20は、直前の発話テキストおよび発話者の属性を学習済みモデルに入力し、発話者の次の発話となる発話テキストを生成する。
【0014】
データ保存部30は、一連の発話テキストを含む学習データを保持する。各発話には発話者の属性が付与されている。
【0015】
計算結果記憶部40は、テキストを生成する深層学習モデル、学習によって得られた深層学習モデルのパラメータ、属性や単語の分散ベクトル(分散埋め込み表現)などの計算結果を保持する。
【0016】
入出力部50は、ユーザ端末5から属性および発話文を入力して生成部20へ送信し、生成部20から生成した発話テキストを受信して応答文としてユーザ端末5に返却する。
【0017】
[提案モデル]
図2および図3を参照し、本実施形態で提案するモデルについて説明する。図2に示す提案モデルは、Transformerにマルチビューアテンションメカニズムを導入した深層学習モデルである。提案モデルは直前の発話を含む発話テキストを条件として用い、提案モデルに発話テキスト(HISTORY)と発話者の属性(ATTRIBUTE)を入力すると、入力した発話者の属性による次の発話テキスト(UTTERANCE)を自己回帰的に生成する。Transformerは主に自然言語処理分野で用いられる深層学習モデルである。TransformerをLeft-to-right Language modelとして利用すると、入力した単語からその次に出現する単語を確率的に予測し、これを再帰的に繰り返すことでデキストを生成できる。マルチビューアテンションメカニズムは、単語間、属性間、または単語と属性間の関連度(Attention)を計算する際に、属性は双方向で参照でき、単語は属性とテキスト内で以前に出現した単語のみを参照できるようにする仕組みである。マルチビューアテンションメカニズムは、トークン(属性および単語)ごとにコンテキストへのアクセスを制御するための異なる自己アテンションマスクを持つことで、Transformerが属性側と単語側とでパラメータを共有できる。
【0018】
図3にマルチビューアテンションメカニズムで利用する自己アテンションマスクの一例を示す。図3の例では、自己アテンションマスクを、縦方向に参照元の単語h、属性a、単語uを並べ、横方向に参照先の単語h、属性a、単語uを並べて示した。hは発話履歴の単語のトークンに相当し、aは属性のトークンに相当し、uは生成する発話(次の発話テキスト)の単語のトークンに相当する。黒丸は参照可能なトークンを示す。単語hは直前の発話テキストを構成する単語である。単語uは次の発話テキストを構成する単語である。単語hに関しては入力のみで出力がないので、単語h,uと属性aを参照しない。属性aは、単語h,uと属性aの全てを参照できる。単語uは、単語hの全てと属性aの全てと次の発話テキストにおいてそれまでに出現した単語uのみを参照できる。以下、マルチビューアテンションメカニズムを導入したTransformerについて説明する。
【0019】
アテンションとはトークン間(属性間、単語間、属性と単語間)の関連度を表すスコアである。各トークンがQ(クエリ),K(キー),およびV(バリュー)のベクトルを持つ。次式のように、アテンションは、Vの加重和であり、その加重はQとKを使って計算される。本実施形態では、アテンションの計算にマルチビューアテンションメカニズムを導入し、別のトークンへのアクセスを制御した。
【0020】
【数1】
【0021】
l Q,Wl K,Wl V∈Rd h ×d kは、Q,K,V∈Rx×d kのそれぞれを計算するための学習可能な重みである。dは、クエリとキーの共有次元数である。M∈Rx×xは自己アテンションマスクである。アテンションを求める際に、単語のトークンについては後続(i<j)の単語を参照しないように無限に小さい値とする。HはTransformerを構成するパラメータであり、次式で表される。
【0022】
【数2】
【0023】
a 0はTransformerへの入力であって、各トークンについて、属性または単語の分散埋め込み表現(Token Embedding)、位置の分散埋め込み表現(Positional Embedding)、およびデータ形式の分散埋め込み表現(Segment Embeding)を合わせたものである。Ha lはl番目のレイヤの出力であり、次のレイヤへの入力である。なお、図2中の[CLS]は始まりを示すトークンである。[SEP]は区切りを示すトークンである。[SOA]は属性の始まりを示し、[EOA]は属性の終わりを示すトークンである。[EOT]はテキストの終わりを示すトークンである。
【0024】
提案モデルは、学習タスクとしてMANとNUMを導入した。MANにより属性を単語と同じ意味空間に配置できるようにモデルを学習する。MAMは次式で定義される。
【0025】
【数3】
【0026】
ここで、ζは学習するパラメータを表す。j番目のテキストにおける属性群をaj={aj,1,・・・,aj,i}、単語群をwj={wj,1,・・・,wj,i}とする。単語群は、直前の発話テキスト(HISTORY)と次の発話テキスト(UTTERANCE)の単語を含む。バックスラッシュを付したmはm番目の属性をマスクしたことを表す。MAMは属性の一部を除いたときの属性の予測精度を表し、MAMによりマスクした属性を正しく推定できるようにモデルを学習できる。
【0027】
NUMは次式で定義される。
【0028】
【数4】
【0029】
連続する発話のスコアリング関数をsζ(ht,ht+1)とする。NUMは直前の発話テキストと次の発話テキストがどれだけ噛合っているかを評価する。NUMによりコンテキストにあった次の発話テキストの予測精度が向上するようにモデルを学習できる。
【0030】
モデルの学習は、以下の目的関数を最小化することで実施する。
【0031】
【数5】
【0032】
LMはTransformerデコーダを学習するための目的関数であり、LLMを最小化することで、自己回帰的に生成する単語の予測精度を向上できる。
【0033】
[動作]
次に、図4のフローチャートを参照し、学習処理について説明する。
【0034】
ステップS11にて、学習部10は、データ保存部30から一連の発話テキストと属性を読み出す。図5に一連の発話テキストの一例を示す。一連の発話テキストの各発話に属性が付与されている。図5の例では、発話者を特定する識別子が付与されている。発話者の属性として複数の属性が付与されていてもよい。
【0035】
ステップS12にて、学習部10は、連続する2つの発話テキストを取得し、2つの発話テキストのそれぞれを形態素解析により単語に分割する。図5の例の場合、学習部10は、最初に、発話者Aの“Hi!”と発話者Bの“May I help you?”を取得し、それぞれを単語に分割する。
【0036】
ステップS13にて、学習部10は、直前の発話テキストの単語、発話者の属性、および次の発話テキストの単語をモデルに入力し、上記で示した目的関数を最小化するようにモデルのパラメータを更新する。具体的には、学習部10は、直前の発話テキストの単語をHISTORY、次の発話者の属性をATTRIBUTE、次の発話テキストの単語をUTTERANCEとしてモデルに入力する。発話者の属性は複数個入力してもよい。
【0037】
ステップS14にて、学習部10は、一連の発話テキストの全ての発話テキストについて処理したか否か判定する。処理していない発話テキストがある場合、学習部10は、ステップS12に戻り、発話テキストを1つずらして、次の発話テキストを含む連続する2つの発話テキストを取得して処理を続ける。具体的には、図5の例の場合、発話者Bの“May I help you?”と発話者Aの“Yes, please.”を取得して処理を続ける。
【0038】
本実施形態では、ターゲットとなるUTTERANCEに対して、直前の発話テキストのみを用いることで、それ以前の全ての発話テキストを用いる従来技術よりも計算コストを抑制することができる。
【0039】
次に、図6のフローチャートを参照し、対話生成処理について説明する。
【0040】
ステップS21にて、生成部20は、ユーザ端末5から受信した直前の発話テキストと属性をモデルに入力する。直前の発話テキストは単語に分割されてモデルに入力される。
【0041】
ステップS22にて、生成部20は、モデルが再帰的に出力する単語を繋げて次の発話テキストを生成する。
【0042】
ステップS23にて、生成部20は、発話テキストの生成を終了するか否か判定する。例えば、連続する一連の会話を生成する場合、生成部20は、ステップS21に戻り、ステップ22で生成した次の発話テキストを直前の発話テキストとして処理を続ける。
【0043】
生成部20による発話テキスト生成処理が終了すると、生成された発話テキストは、入出力部50からユーザ端末5へ返却される。
【0044】
以上説明したように、本実施形態の対話システム1は、学習部10と生成部20を備え、発話に対する応答テキストを生成するシステムである。学習部10は、発話者の属性が付与された発話テキストを入力し、前の発話テキストと次の発話テキストから単語を抽出し、トークンの種別ごとに他のトークンへのアクセスを制御するマルチビューアテンションメカニズムを導入したTransformerに前の発話テキストの単語と属性を条件、次の発話テキストの単語を出力結果として入力し、属性の一部を除いたときの属性の予測精度を表す目的関数と前の発話テキストと次の発話テキストとの噛合い度合いを表す目的関数を最小化するようにTransformerを学習する。生成部20は、直前の発話テキストと発話者の属性を学習済みのTransformerに入力し、Transformerから再帰的に出力される単語をつなげて発話者の次の発話となる応答テキストを生成する。これにより、再学習前のモデルと再学習後のモデルをバランスよく結合し、発話のコンテキストを反映した発話を生成する対話システム1を提供できる。
【符号の説明】
【0045】
1 対話システム
10 学習部
20 生成部
30 データ保存部
40 計算結果記憶部
50 入出力部
5 ユーザ端末
図1
図2
図3
図4
図5
図6
【手続補正書】
【提出日】2023-07-26
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
発話に対する応答テキストを生成する対話テキスト生成装置であって、
発話者の属性が付与された発話テキストを入力し、前の発話テキストと次の発話テキストから単語を抽出し、トークンの種別ごとに他のトークンへのアクセスを制御するマルチビューアテンションメカニズムを導入したTransformerに前記前の発話テキストの単語と前記属性を条件、前記次の発話テキストの単語を出力結果として入力し、前記属性の一部を除いたときの前記属性の予測精度を表す目的関数と前記前の発話テキストと前記次の発話テキストとの噛合い度合いを表す目的関数を最小化するようにTransformerを学習する学習部と、
直前の発話テキストと発話者の属性を学習済みのTransformerに入力し、Transformerから再帰的に出力される単語をつなげて発話者の次の発話となる応答テキストを生成する生成部を備え、
前記マルチビューアテンションメカニズムは、前記属性のトークンについては全てのトークンへのアクセスを可能とし、前記次の発話テキストの単語のトークンについては前記属性のトークンの全てと当該単語よりも前に出現した単語のトークンへのアクセスを可能とする自己アテンションマスクを備えて、Transformerがアテンションを求める際に、次の発話テキストの単語のトークンについては後続の単語のトークンを参照しないようにアテンションを無限に小さい値とする
対話テキスト生成装置。
【請求項2】
請求項1に記載の対話テキスト生成装置であって、
前記学習部は、一連の対話における発話テキストを入力し、前記前の発話テキストと次の発話テキストを1つずつずらしながら学習する
対話テキスト生成装置。
【請求項3】
発話に対する応答テキストを生成する対話テキスト生成方法であって、
コンピュータが、
発話者の属性が付与された発話テキストを入力し、前の発話テキストと次の発話テキストから単語を抽出し、トークンの種別ごとに他のトークンへのアクセスを制御するマルチビューアテンションメカニズムを導入したTransformerに前記前の発話テキストの単語と前記属性を条件、前記次の発話テキストの単語を出力結果として入力し、前記属性の一部を除いたときの前記属性の予測精度を表す目的関数と前記前の発話テキストと前記次の発話テキストとの噛合い度合いを表す目的関数を最小化するようにTransformerを学習し、
直前の発話テキストと発話者の属性を学習済みのTransformerに入力し、Transformerから再帰的に出力される単語をつなげて発話者の次の発話となる応答テキストを生成し、
前記マルチビューアテンションメカニズムは、前記属性のトークンについては全てのトークンへのアクセスを可能とし、前記次の発話テキストの単語のトークンについては前記属性のトークンの全てと当該単語よりも前に出現した単語のトークンへのアクセスを可能とする自己アテンションマスクを備えて、Transformerがアテンションを求める際に、次の発話テキストの単語のトークンについては後続の単語のトークンを参照しないようにアテンションを無限に小さい値とする
対話テキスト生成方法。
【請求項4】
請求項3に記載の対話テキスト生成方法であって、
一連の対話における発話テキストを入力し、前記前の発話テキストと次の発話テキストを1つずつずらしながら学習する
対話テキスト生成方法。
【請求項5】
請求項1または2に記載の対話テキスト生成装置の各部としてコンピュータを動作させるプログラム。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0006
【補正方法】変更
【補正の内容】
【0006】
本発明の一態様の対話テキスト生成装置は、発話に対する応答テキストを生成する対話テキスト生成装置であって、発話者の属性が付与された発話テキストを入力し、前の発話テキストと次の発話テキストから単語を抽出し、トークンの種別ごとに他のトークンへのアクセスを制御するマルチビューアテンションメカニズムを導入したTransformerに前記前の発話テキストの単語と前記属性を条件、前記次の発話テキストの単語を出力結果として入力し、前記属性の一部を除いたときの前記属性の予測精度を表す目的関数と前記前の発話テキストと前記次の発話テキストとの噛合い度合いを表す目的関数を最小化するようにTransformerを学習する学習部と、直前の発話テキストと発話者の属性を学習済みのTransformerに入力し、Transformerから再帰的に出力される単語をつなげて発話者の次の発話となる応答テキストを生成する生成部を備え、前記マルチビューアテンションメカニズムは、前記属性のトークンについては全てのトークンへのアクセスを可能とし、前記次の発話テキストの単語のトークンについては前記属性のトークンの全てと当該単語よりも前に出現した単語のトークンへのアクセスを可能とする自己アテンションマスクを備えて、Transformerがアテンションを求める際に、次の発話テキストの単語のトークンについては後続の単語のトークンを参照しないようにアテンションを無限に小さい値とする