IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社朝日新聞社の特許一覧

特開2022-27175情報処理装置、情報処理方法、及びプログラム
<>
  • 特開-情報処理装置、情報処理方法、及びプログラム 図1
  • 特開-情報処理装置、情報処理方法、及びプログラム 図2
  • 特開-情報処理装置、情報処理方法、及びプログラム 図3
  • 特開-情報処理装置、情報処理方法、及びプログラム 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2022027175
(43)【公開日】2022-02-10
(54)【発明の名称】情報処理装置、情報処理方法、及びプログラム
(51)【国際特許分類】
   G06F 40/56 20200101AFI20220203BHJP
   G06F 40/44 20200101ALI20220203BHJP
   G06F 16/30 20190101ALI20220203BHJP
【FI】
G06F40/56
G06F40/44
G06F16/30
【審査請求】有
【請求項の数】8
【出願形態】OL
(21)【出願番号】P 2020131011
(22)【出願日】2020-07-31
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 1.https://cl.asahi.com/pdfs/hitomi-NLP2020.pdf 人見 雄太、田口 雄哉、田森 秀明、岡崎 直観、乾 健太郎らが、2020年3月18日より、出願に係る発明の内容を上記URLにて公開。 2.https://yans.anlp.jp/entry/yans2019 https://yans.anlp.jp/entry/yans2019program https://drive.google.com/file/d/1CcSXIS-jGnYHbp_cbwq2av4TcTOizYyQ/view 出願に係る発明の内容について、人見 雄太が、2019年8月8日より、上記各URLにて公開。 3.https://prtimes.jp/main/html/rd/p/000000809.000009214.html 出願に係る発明の内容について、2020年2月13日より、株式会社朝日新聞社が上記URLにて公開。 4.https://www.gsic.titech.ac.jp/sites/default/files/H31_san_19IBD.pdf 出願に係る発明の内容について、2020年3月10日より、田森 秀明が上記URLにて公開。
(71)【出願人】
【識別番号】390012933
【氏名又は名称】株式会社朝日新聞社
(74)【代理人】
【識別番号】100147485
【弁理士】
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【弁護士】
【氏名又は名称】杉村 光嗣
(74)【代理人】
【識別番号】100192924
【弁理士】
【氏名又は名称】石井 裕充
(72)【発明者】
【氏名】人見 雄太
(72)【発明者】
【氏名】田口 雄哉
(72)【発明者】
【氏名】田森 秀明
(72)【発明者】
【氏名】岡崎 直観
(72)【発明者】
【氏名】乾 健太郎
【テーマコード(参考)】
5B091
5B175
【Fターム(参考)】
5B091CA21
5B091EA01
5B175DA01
5B175FB01
(57)【要約】
【課題】生成される要約の品質を向上させる。
【解決手段】情報処理装置(D)は、記事と記事の第1の要約との対を含む第1のデータを取得することと、記事と記事の第2の要約との対を含む第2のデータを取得することと、第1のデータに第1の識別子を付加することと、第2のデータに第2の識別子を付加することと、第1のデータと第2のデータとを含む訓練データにおいて、第1の識別子と第2の識別子とを読み取って、記事から第1の要約又は第2の要約を生成する単一のモデルを学習することと、を含む処理を実行する。
【選択図】図1
【特許請求の範囲】
【請求項1】
記事と該記事の第1の要約との対を含む第1のデータを取得することと、
記事と該記事の第2の要約との対を含む第2のデータを取得することと、
前記第1のデータに第1の識別子を付加することと、
前記第2のデータに第2の識別子を付加することと、
前記第1のデータと前記第2のデータとを含む訓練データにおいて、前記第1の識別子と前記第2の識別子とを読み取って、記事から第1の要約又は第2の要約を生成する単一のモデルを学習することと、
を含む処理を実行する情報処理装置。
【請求項2】
請求項1に記載の情報処理装置において、
前記第1の要約と前記第2の要約とはスタイルが異なる、情報処理装置。
【請求項3】
請求項1又は2に記載の情報処理装置において、
前記第1のデータに含まれる対の数は、前記第2のデータに含まれる対の数よりも多い、情報処理装置。
【請求項4】
請求項3に記載の情報処理装置において、
前記第1のデータは10万件以上の対を含み、
前記第2のデータは1千件以上10万件未満の対を含む、情報処理装置。
【請求項5】
請求項1乃至4のいずれか一項に記載の情報処理装置において、
エンコーダ・デコーダモデルを用いて、エンコーダに記事を入力してエンコードし、エンコードされた前記記事をデコーダに入力して、前記デコーダから第1の要約又は第2の要約を出力する、情報処理装置。
【請求項6】
請求項1乃至5のいずれか一項に記載の情報処理装置において、
新たな記事の入力を受け付けると、第1の識別子と第2の識別子とのいずれかが前記新たな記事に付加されているかを判定して、
前記第1の識別子が付加されていると判定すると、前記単一のモデルを用いて、前記新たな記事に対応する第1の要約を出力し、
前記第2の識別子が付加されていると判定すると、前記単一のモデルを用いて、前記新たな記事に対応する第2の要約を出力する、
情報処理装置。
【請求項7】
情報処理装置による情報処理方法であって、
記事と該記事の第1の要約との対を含む第1のデータを取得するステップと、
記事と該記事の第2の要約との対を含む第2のデータを取得するステップと、
前記第1のデータに第1の識別子を付加するステップと、
前記第2のデータに第2の識別子を付加するステップと、
前記第1のデータと前記第2のデータとを含む訓練データにおいて、前記第1の識別子と前記第2の識別子とを読み取って、記事から第1の要約又は第2の要約を生成する単一のモデルを学習するステップと、
を含む情報処理方法。
【請求項8】
コンピュータに、
記事と該記事の第1の要約との対を含む第1のデータを取得することと、
記事と該記事の第2の要約との対を含む第2のデータを取得することと、
前記第1のデータに第1の識別子を付加することと、
前記第2のデータに第2の識別子を付加することと、
前記第1のデータと前記第2のデータとを含む訓練データにおいて、前記第1の識別子と前記第2の識別子とを読み取って、記事から第1の要約又は第2の要約を生成する単一のモデルを学習することと、
を含む処理を実行させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、及びプログラムに関する。
【背景技術】
【0002】
従来、Rushらによる研究(例えば非特許文献1)以降、大規模な自然言語コーパスを用いた生成型要約の研究が盛んに行われている。現在の生成型要約の成功は、Transformerなどを用いたエンコーダ・デコーダモデル(EncDec)(例えば非特許文献2)の発展、および何百万事例という規模の大量の訓練データに支えられている。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Alexander M. Rush, Sumit Chopra, and Jason Weston, “A neural attention model for abstractive sentence summarization”, EMNLP, 2015, pp.379-389
【非特許文献2】Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin, “Attention is all you need”, NIPS, 2017, pp.5998-6008
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところが、生成型要約のタスクにおいて、大量の訓練データを利用できるドメインは限られている。例えば、新聞記事コーパスに関しては、記事本文と見出しとの組のデータは豊富に公開されている。しかし記事本文と、見出しよりもより文字数の多い要約の組のデータは比較的入手しづらい。例えば、出願人が公開しているJapanese News Corpus(JNC)は記事の先頭3文と見出しの組を1,828,231件収録している。一方、出願人の要約サービスの一つである、ニュース速報配信サービス(ANDES)では、48文字を上限とする要約を配信しているが、2019年6月時点までに約3万件の記事と要約の組しか蓄積されていない。見出しよりも長い要約の生成を意図した場合、3万件の訓練データのみを用いて学習した要約モデルから得られる要約の品質には、改善の余地がある。
【0005】
上記のような問題点に鑑みてなされた本発明の目的は、生成される要約の品質を向上させることができる情報処理装置、情報処理方法、及びプログラムを提供することである。
【課題を解決するための手段】
【0006】
上記課題を解決するため、本実施形態に係る情報処理装置は、
記事と該記事の第1の要約との対を含む第1のデータを取得することと、
記事と該記事の第2の要約との対を含む第2のデータを取得することと、
前記第1のデータに第1の識別子を付加することと、
前記第2のデータに第2の識別子を付加することと、
前記第1のデータと前記第2のデータとを含む訓練データにおいて、前記第1の識別子と前記第2の識別子とを読み取って、記事から第1の要約又は第2の要約を生成する単一のモデルを学習することと、
を含む処理を実行する。
【0007】
上記課題を解決するため、本実施形態に係る情報処理方法は、
情報処理装置による情報処理方法であって、
記事と該記事の第1の要約との対を含む第1のデータを取得するステップと、
記事と該記事の第2の要約との対を含む第2のデータを取得するステップと、
前記第1のデータに第1の識別子を付加するステップと、
前記第2のデータに第2の識別子を付加するステップと、
前記第1のデータと前記第2のデータとを含む訓練データにおいて、前記第1の識別子と前記第2の識別子とを読み取って、記事から第1の要約又は第2の要約を生成する単一のモデルを学習するステップと、
を含む。
【0008】
上記課題を解決するため、本実施形態に係るプログラムは、
コンピュータに、
記事と該記事の第1の要約との対を含む第1のデータを取得することと、
記事と該記事の第2の要約との対を含む第2のデータを取得することと、
前記第1のデータに第1の識別子を付加することと、
前記第2のデータに第2の識別子を付加することと、
前記第1のデータと前記第2のデータとを含む訓練データにおいて、前記第1の識別子と前記第2の識別子とを読み取って、記事から第1の要約又は第2の要約を生成する単一のモデルを学習することと、
を含む処理を実行させる。
【発明の効果】
【0009】
本発明の情報処理装置、情報処理方法、及びプログラムによれば、生成される要約の品質を向上させることができる。
【図面の簡単な説明】
【0010】
図1】情報処理装置の機能ブロック図である。
図2】コントロールコードを導入した際の入力例を示す図である。
図3】実験結果を示す図である。
図4】情報処理装置が実行する情報処理方法のフローチャートを示す図である。
【発明を実施するための形態】
【0011】
以下、図面を用いて本発明の実施形態が説明される。
【0012】
図1は情報処理装置Dの機能ブロック図である。情報処理装置Dは制御部1と通信部2と記憶部3とを含む。
【0013】
制御部1はCPU(Central Processing Unit)等のプロセッサを備える。制御部1は、通信部2と記憶部3との制御を行うとともに、情報処理装置Dの全体の動作に関する全ての制御を行う。
【0014】
通信部2は、通信部2と他の任意の端末との間の通信を行う通信モジュールを含む。通信部2は、他の任意の端末から出力された情報(例えば記事のデータ)を任意のネットワークを介して取得することができる。通信部2は、制御部1によって生成された情報(例えば記事の見出し、又は、記事の要約のデータ)を、ネットワークを介して他の任意の端末へ送信することができる。
【0015】
記憶部3は1つ以上のメモリを含む。メモリは、例えば半導体メモリ、磁気メモリ、又は光メモリ等であるが、これらに限られない。記憶部3に含まれる各メモリは、例えば主記憶装置、補助記憶装置、又はキャッシュメモリとして機能してもよい。記憶部3は、他の任意の端末から出力された情報を記憶する。記憶部3は、制御プログラム又は情報処理装置Dの全体の動作又は制御に関する各種プログラムを記憶してよい。代替例として記憶部3は、情報処理装置Dの外部に設けられて、必要に応じて情報処理装置Dからアクセスされてよい。
【0016】
本実施形態における記憶部3は、記事DB31を含む。例えば記事DB31は、出願人が展開するニュース速報配信サービスから抽出された見出しと要約のデータとを含むデータベースであってよい。代替例として記事DB31は、出願人が2014年5月から2019年6月までに展開した要約サービスANDESで配信された約3万件のデータで構成されたJAMUL2020を含んでよい。記事DB31は、任意のデータベースから取得される見出し(例えば新聞紙向け見出し、ウェブサイト向け見出し)を含んでよいし、上述したJNCを含んでもよい。
【0017】
本実施形態の記事DB31では、それぞれの記事に対して見出し及び要約の少なくとも一方が付与されている。それぞれの記事に対して付与される見出し及び要約の少なくとも一方の数は限定されない。例えば見出し又は要約は1種類ずつであってよい。代替例として見出し又は要約は計5種類あってよく、その内訳は、新聞紙面向け見出し(以下、Print)、ウェブサイト向け見出し(以下、Large)、携帯端末向け見出し(以下、Middle)、電光掲示板向け見出し(以下、Short)、及び、新幹線の電光掲示板などに配信される要約(以下、Sum)である。
【0018】
Print以外については、記事を表示する装置又はレイアウトの都合から、それぞれ異なる文字数の上限が任意に設定されてよい。例えば上限はそれぞれ、Largeでは26文字、Middleでは3文字、Shortでは10文字、Sumでは50文字である。本実施形態では実験の簡素化のための一例として、Print、Large及びSumのみが用いられる。
【0019】
見出しも要約も記事の要点をまとめたもので、両方とも要約の一種である。しかし見出しと要約とはスタイルが異なる。具体的には、見出しは記事の標題であり、例えば体言止めで終わる文字列であってよい。要約は記事の要点をまとめた文章であり、例えば1以上の文で構成される文章であってよい。この明細書では、便宜上、見出しと要約との2つを分けて記載する。見出し及び要約は、それぞれ、本発明の第1の要約及び第2の要約に対応する。
【0020】
見出しと要約とを比較するに、一般的に、見出しと要約とは共に記事の重要な部分の抜粋である。このため、着目する単語又は文がある程度共通していることが想定される。そこで記事DB31におけるPrintとSumについていくつかの分析を行なった。まず、PrintとSumとでどれだけ単語が重複しているのかが確認される。具体的には、Printをシステム出力、Sumを参照要約とした際のROUGEのF1スコアを求めた。結果はROUGE-1が42.8、ROUGE-2が20.8、ROUGE-Lが35.1となった。このため、ある程度単語が重複していることが伺える。次に、重複している単語の品詞が、一例として次の文献に開示される、形態素解析エンジンのMeCabを用いて調べられる。
[非特許文献3]Taku Kudo, Kaoru Yamamoto, and Yuji Matsumoto, “Applying conditional random fields to Japanese morphological analysis”, EMNLP, 2004, pp. 230-237
【0021】
結果として、頻度順に、名詞が68%、助詞が19%、記号が6%となり、それ以外については3%未満であった。すなわち重複する7割近くの単語が名詞であり、キーワードの選択が、見出しと要約では似ていることが伺える。
【0022】
最後に、PrintとSumの位置バイアスが確認される。具体的には、見出しと要約とにおける各bi-gramが記事中のどの位置に存在するかの頻度が確認される。結果として、位置バイアスはほぼ一致することが確認された。つまり見出しと要約とで着目する部分が殆ど同じであり、転移学習に効果的であることが期待できる。同時に学習されるスタイルは、キーワードの選択及び位置バイアスが近いものであれば、何種類であってもよい。しかし以下の説明では、説明の簡便の目的で、同時に学習されるスタイルは2種類(すなわち見出しと要約)である。
【0023】
まず、情報処理装置Dが実行する制御方法が概略的に説明される。
【0024】
情報処理装置Dは記憶部3から、記事と記事の見出しとの対を含む大規模な第1のデータと、記事と記事の要約との対を含む小規模な第2のデータとを取得して、それらを混ぜたデータを訓練データとして用いて、データ生成処理を実行する。具体的には、情報処理装置Dは、記事からの見出し生成と要約生成とを同時に学習することを生成スタイルの転移と見なす。本実施形態では、異なる長さの見出し又は要約を異なる部署又は担当者が執筆している場合など、要約のスタイルの差が存在する場合であっても、情報処理装置Dは高品質な要約生成を実行することができる。
【0025】
本実施形態では第1のデータに含まれる対の数は、第2のデータに含まれる対の数よりも多い。例えば第1のデータは10万件以上の対を含み、第2のデータは1千件以上10万件未満の対を含む。別の代替例として、本実施形態とは反対に、記事と記事の見出しとの対を含むデータが小規模であり、記事と記事の要約との対を含むデータが大規模であってよい。更に別の代替例として、記事と記事の見出しとの対を含むデータの規模、及び、記事と記事の要約との対を含むデータの規模は任意であってよい。
【0026】
[提案手法]
次に、本実施形態の情報処理装置Dが実行する情報処理方法が詳細に説明される。
【0027】
1.タスク定義
入力文XをOne-hotベクトルからなる長さIの系列とする。ここで、
【数1】
は、入力Xのi番目のトークン(単語)を表す。Vsは語彙であり、|Vs|は語彙Vsに含まれる単語数を示す。代替例として、文字単位での分かち書きが行われる場合、トークンはそれぞれの文字であってよい。また、SentencePieceやByte Pair Encodingでの分かち書きが行われる場合、トークンはそれぞれのサブワードであってよい。以下、X =(x1、...、xI)の略記法としてx1:Iが用いられる。同様に出力側の要約について、
【数2】
は、長さがJの出力Yにおける、j番目のOne-hotベクトルと定義される。|Vt|は出力側語彙Vtの語彙数とする。Yは常に専用のトークンを2つ含むと仮定する。具体的には、y0が<bos>であり、yJ+1が<eos>である。Rushらの提案した上記ヘッドライン生成タスクに倣い、I>Jと設定される。要約と見出しのデータを区別して学習するために、識別子としてコントロールコードc(特殊トークンとも称される)が記事に付加される。具体的には、x0にcが与えられ。エンコーダ・デコーダモデルは次の条件付き確率をモデル化する。
【数3】
【0028】
Dを訓練データの集合とする。θをエンコーダ・デコーダモデルで訓練するパラメータの集合とする。最適なパラメータθ′を、次の損失関数G(θ)をD上で最小化することによって求める。
【数4】
【数5】
【0029】
推論時には、訓練したパラメータのもと、上記[数3]で定義された条件付き確率の積を最大化する系列を探索する。
【0030】
2.モデル
本実施形態では一例として、情報処理装置Dは、任意のエンコーダ・デコーダモデルを用いる。エンコーダ・デコーダモデルで用いられるモデルとして代表的なものは例えば、RNN、Bi-RNN、LSTM、Bi-LSTM、GRU、Bi-GRU、BERT、Transformer、RoBERTa、ALBERT、ELMo、Reformer及びBARTである。これらのうち任意の組み合わせがエンコーダとデコーダとに用いられてよい。代替例としてこれらのうち1つが、エンコーダとデコーダの両方に用いられてよい。
【0031】
エンコーダ・デコーダモデルで用いられるモデルは、日々その改良版が出現する。出現する任意のモデルが情報処理装置Dのエンコーダ・デコーダモデルに用いられてよい。
【0032】
情報処理装置Dはエンコーダ・デコーダモデルを用いる。具体的には情報処理装置Dは、入力された記事に対する前処理として分かち書き処理を行い(すなわち、単語単位、文字単位、又はサブワード単位等に分割し)、記事の先頭にコントロールコードを付与し、分かち書きされた記事をエンコーダに入力し、入力のベクトル情報をエンコーダから出力し、出力されたベクトル情報をデコーダに入力し、デコーダから見出し又は要約を出力する。
【0033】
上記の分かち書き処理には任意のモデルを用いることができ、例えばSentencePiece、MeCab、文字単位、又はByte Pair Encodingが利用可能である。
【0034】
Transformerは例えば上記非特許文献2に開示される。
【0035】
BertSumAbsは例えば次の文献に開示される。
[非特許文献4]Yang Liu and Mirella Lapata, “Text summarization with pretrained encoders”, EMNLP-IJCNLP, 2019, pp.3728-3738
【0036】
情報処理装置Dは、見出し生成と要約生成とのスタイルを分離して学習するために、記事にコントロールコードを付加する。後述するように、ここでは実験のために2種類のコントロールコードが試される。1つ目はタスクについてのコントロールコードである。2つ目は長さについてのコントロールコードである。コントロールコードは任意のものを採用可能である。
【0037】
タスクについてのコントロールコードは例えば次の文献に開示される。
[非特許文献5]Nitish Keskar, Bryan McCann, Lav Varshney, Caiming Xiong, and Richard Socher, “Ctrl: A conditional transformer language model for controllable generation”, 2019, arXiv preprint
【0038】
長さについてのコントロールコードは例えば次の文献に開示される。
[非特許文献6]Yuta Hitomi, Yuya Taguchi, Hideaki Tamori, Ko Kikuta, Jiro Nishitoba, Naoaki Okazaki, Kentaro Inui, and Manabu Okumura, “A largescale multi-length headline corpus for analyzing length-constrained headline generation model evaluation”, INLG, 2019
【0039】
上述される2種類のコントロールコードcの具体例が図2に示される。情報処理装置Dは、エンコーダ・デコーダモデルとコントロールコードとの組み合わせとして以下の4つを用いる。(1)及び(3)では、タスクについてのコントロールコードが用いられる。(2)及び(4)では長さについてのコントロールコードが用いられる。
(1)Conditional Transformer (Task):非特許文献5にて提案されるコントロールコードをTransformerに適用したモデルである。識別子であるコントロールコードには、分かち書きされた単語に存在しない任意のものが利用可能である。例えばコントロールコードには@Printと@Sumとの2つが用いられる。代替例としてコントロールコードは「<見出し>」と「<要約>」などでもよいし、「<@p>」と「<@s>」、「[PAP]」と「[SUM]」などでもよい。
(2)Conditional Transformer (Length):非特許文献6にて提案される手法である。コントロールコードとして、任意の文字数を表すコントロールコード(例えば7~50文字を表す計44個のコントロールコード)が用いられる。
(3)Conditional BertSumAbs (Task):非特許文献4にて提案した要約モデルにコントロールコードを導入したモデルである。コントロールコードとしては@Printと@Sumの2つが用いられる。代替例としてコントロールコードは「<見出し>」と「<要約>」などでもよいし、「<@p>」と「<@s>」、「[PAP]」と「[SUM]」などでもよい。
(4)Conditional BertSumAbs (Length):非特許文献4にて提案される要約モデルである。コントロールコードとしては、任意の文字数を表すコントロールコード(例えば7~50文字を表す計44個のコントロールコード)が用いられる。
【0040】
情報処理装置Dは、訓練データにおいてコントロールコードを読み取って、記事から見出し又は要約を生成する単一のモデルを学習する。情報処理装置Dは、学習された単一のモデルを用いて、新たな記事から見出し又は要約を出力することができる。例えば情報処理装置Dは、新たな記事の入力を受け付けると、@Printと@Sumとのいずれが新たな記事に付加されているかを判定する。情報処理装置Dは、@Printが付加されていると判定すると、新たな記事に対応する見出しを出力する。情報処理装置Dは、@Sumが付加されていると判定すると、新たな記事に対応する要約を出力する。
【0041】
記事から見出し又は要約を出力するサービスは、ネットワークを介して提供されてよい。例えば情報処理装置Dは、ネットワークを介して情報処理装置Dと通信可能に接続された任意の端末装置から記事の入力を受け付けると、上述の情報処理方法により見出し又は要約を生成して、任意の端末装置に提供してよい。代替例として情報処理装置Dは、情報処理装置Dにてユーザから直接的に記事の入力を受け付けて見出し又は要約を生成し、生成された見出し又は要約を出力してもよい。
【0042】
[実施例]
情報処理装置Dを用いて以下のように実験を行った。この実験は、本願の出願日以前のある時点で実施したものであり、実験結果は実施当時のものである。
1.データセット
実施例では記事と、見出し又は要約との任意の対が訓練データとして使用される。ここでは実施例の説明の便宜のための一例として、記事DB31に記憶されたJAMUL2020とJNCとが訓練データとして使用される。以下の実施例中で記載されるパラメータ、データの件数、コントロールコード、モデル等も、実施例の説明の便宜のためのものであり、任意に変更可能である。
【0043】
JAMUL2020においては、2017年以前のデータが用いられた。比較実験の都合から同一記事にSum及びLargeの両方が付与されたものが抽出された。検証データ及び評価データについては、JNCとの重複を避けるため、2018年以降の組みから構成した。その後、比較実験と分析の都合から、同一記事にSum、Large及びPrintの3つの要約が付与されている組みのみが抽出された。その後、ランダムに半分を抽出し検証データとして、残りを評価データとした。最終的に、訓練データは23,049件、検証データは2,321件、評価データは2,322件となった。
【0044】
JNCは、非特許文献6にて提案される、見出しと記事の対からなる大規模なコーパスである。JNCからは、前処理スクリプトによって得られた1,523,468件が訓練データとして用いられる。
【0045】
2.ベースライン
情報処理装置Dの制御部1が実行する情報処理方法と、以下の6手法とが比較される。
(1)Extractive Oracle:入力記事の各文から、ROUGE-1とROUGE-2との合計が最大になる1文をシステム出力とみなす手法である。
(2)LEAD-1:入力記事の第1文をシステム出力とする手法である。
(3)Transformer(Sum):Sumのみで訓練されたTransformerである。
(4)Transformer(Sum+Large):次の文献にて導入された設定で、入力として見出しと特殊トークンと記事とを結合したものを使用して訓練されたTransformerである。見出しとしてLargeが用いられる。
[非特許文献7]Romain Paulus, Caiming Xiong, and Richard Socher, “A deep reinforced model for abstractive summarization”, ICLR, 2018
(5)Transformer+SP-token:非特許文献6で提案される手法で、入力の先頭に長さの情報を持った特殊トークンを追加した手法である。
(6)BertSumAbs:非特許文献4で提案される生成型要約モデルである。SumのみでFine-tuningが行われる。
【0046】
3.実装の詳細
Transformerの実装として次の文献で提案された手法を用いた。
[非特許文献8]Myle Ott, Sergey Edunov, Alexei Baevski, Angela Fan, Sam Gross, Nathan Ng, David Grangier, and Michael Auli, “fairseq: A fast, extensible toolkit for sequence modeling”, NAACL-HLT, 2019, pp.48-53
【0047】
各種パラメータについては学習率を除き、上記非特許文献2におけるWMT2014のEnglish-Germanにおけるbase modelを用いた。
【0048】
学習率は0.0007に変更した。単語埋め込みベクトルの学習に用いる重み行列については入力側と出力側で別々のものを用いた。BERTの訓練済みモデルとしては日本語のWikipediaで事前学習を行っているJapanese Bertを用いた。URLは次の通り。
URL https://github.com/cl-tohoku/bert-japanese
BertSumAbsは、非特許文献4の著者が実装したものを用いた。URLは次の通り。
URL https://github.com/nlpyang/PreSumm
コントロールコードの付加にはTransformersを用いた。URLは次の通り。
URL https://github.com/huggingface/transformers
BertSumAbs以外の実験における語彙については、SentencePieceを用いて構築した。URLは次の通り。
URL https://github.com/google/sentencepiece
merge operationは8000と定め、入力文と出力文とを結合したコーパスから語彙の構築を行った。長さについてのコントロールコードを用いたモデルについては、評価時に48文字を表現したコントロールコードを用いた。推論時のビーム幅は5とした。生成結果と正解要約とは共に、上記のMeCabにより分かち書きをしてROUGEを求めた。
【0049】
4.実験結果
単語の被覆率による評価として、F値ベースのROUGE-1、ROUGE-2、及びROUGE-Lを用いた。それぞれの略記法としてR-1、R-2、及びR-Lを用いる。図3に実験結果を示す。図3に示すように、ROUGEのスコアにおいて、情報処理装置Dが実行する処理であるConditional Transformerが、最も高いパフォーマンスを出した。
【0050】
次に、長さの制約についての評価として、生成された要約が長さの制約をどれくらい正確に守れているかを評価するために、次の式からAverage Length Difference(ALD)を求めた。
【数6】
ここで、nは生成された要約の数を示す。liは生成された要約の文字数を示す。lenは正解要約の文字数を表す。スコアは、正解要約から平均何文字ずれているかを表す。
【0051】
ALDについて図3を参照するに、抽出型要約であるExtractive Oracle又はLEAD-1については平均24~29文字ずれているのに比べ、情報処理装置Dが実行する処理であるConditional Transformerにおいては平均1~3文字程度のずれが確認された。厳密な長さの制約がある場合、制約に合わせて生成ができる生成型要約の方が本タスクにおいて有効であるといえる。
【0052】
次に、コントロールコードの種類による影響を見る。具体的には、見出しと要約という生成スタイルを出し分ける(すなわち、タスクを制御する)ケースと長さについて制御するケースについて比較する。その結果、長さについて制御した方がより厳密に制約を守れていることが分かった。これは、タスクについてのコントロールコードが長さについて幅を持って学習しているのに対し、長さについてのコントロールコードは1文字ずつ学習できるためである。一方でタスクについて制御を行うと、見出しにしか出現しないスペースなどの表現が生成された要約に全く現れなくなるなど、ライティングスタイルについての改善が確認された。
【0053】
Conditional BertSumAbsはConditional Transformerに比べ正確に出力長をコントロールできないことが分かった。これは事前学習時に長さの情報について学習できていないことが原因であると考えられる。
【0054】
以上のように、情報処理装置Dは、コントロールコードによるスタイル分離を行うことで見出し生成と要約生成を同時に学習する。これにより情報処理装置Dは、既存手法に比べて、生成される要約の品質を大幅に改善する。本実施例では要約の品質を、F値ベースの指標であるROUGE-1、ROUGE-2、及びROUGE-Lを用いて評価した。しかし別の指標を用いて要約の品質を評価してよい。
【0055】
図4に、情報処理装置Dにおいて実行される処理方法のフローチャートが示される。
【0056】
ステップS1にて、情報処理装置Dは、記憶部3の記事DB31から、記事と記事の見出しとの対を含む第1のデータを取得すると共に、記事と記事の要約との対を含む第2のデータを取得する。
【0057】
ステップS2にて情報処理装置Dは、第1のデータに第1の識別子(例えばコントロールコード)を付加すると共に、第2のデータに第2の識別子を付加する。
【0058】
ステップS3にて情報処理装置Dは、第1のデータと第2のデータとを混ぜた訓練データにおいて、第1の識別子と第2の識別子とを読み取る。
【0059】
ステップS4にて情報処理装置Dは、読み取った結果に応じて、記事から見出し又は要約を生成する単一のモデルを学習する。
【0060】
以上述べたように本実施形態によれば、情報処理装置Dは、第1のデータと第2のデータとを含む訓練データにおいて、第1の識別子と第2の識別子とを読み取って、記事から第1の要約又は第2の要約を生成する単一のモデルを学習する。第1の要約と第2の要約とは文章のスタイルが異なる。第1のデータに含まれる対の数は、第2のデータに含まれる対の数より多い。第1のデータは10万件以上の対を含み、第2のデータは1千件以上10万件未満の対を含む。この構成により情報処理装置Dは、第2のデータが小規模であっても、第1のデータと混ぜることによって量を補い、同時にモデルを学習させることができる。上記実施例のように情報処理装置Dは、要約の品質を測定する指標例であるROUGE-1、ROUGE-2、及びROUGE-Lを改善させることができる。これをもって情報処理装置Dは、記事の重要箇所を過不足なく抜粋しつつ、読み手にとって自然な要約を生成することができるので、要約の品質を向上させることができる。
【0061】
また本実施形態によれば、情報処理装置Dは、エンコーダ・デコーダモデルを用いて、エンコーダに記事を入力してエンコードし、エンコードされた記事をデコーダに入力して、デコーダから第1の要約又は第2の要約を出力する。この構成により情報処理装置Dは要約の品質を一層向上させることができる。
【0062】
また本実施形態によれば、情報処理装置Dは、新たな記事の入力を受け付けると、第1の識別子と第2の識別子とのいずれが新たな記事に付加されているかを判定する。情報処理装置Dは、第1の識別子が付加されていると判定すると、単一のモデルを用いて、新たな記事に対応する第1の要約を出力し、第2の識別子が付加されていると判定すると、単一のモデルを用いて、新たな記事に対応する第2の要約を出力する。この構成により情報処理装置Dは精度良く第1の要約と第2の要約とを出し分けることができるので、第1の要約又は第2の要約を作成するユーザにとっての利便性を向上させることができる。
【0063】
本開示を諸図面及び実施例に基づき説明してきたが、当業者であれば本開示に基づき種々の変形及び修正を行うことが可能であることに注意されたい。したがって、これらの変形及び修正は本開示の範囲に含まれることに留意されたい。例えば、各手段又は各ステップに含まれる機能等は論理的に矛盾しないように再配置可能であり、複数の手段又はステップを1つに組み合わせたり、或いは分割したりすることが可能である。
【0064】
例えば、上記の実施形態において、情報処理装置Dの機能又は処理の全部又は一部を実行するプログラムは、コンピュータで読取り可能な記録媒体に記録しておくことができる。コンピュータで読取り可能な記録媒体は、非一時的なコンピュータ読取可能な媒体を含み、例えば、磁気記録装置、光ディスク、光磁気記録媒体、又は半導体メモリである。プログラムの流通は、例えば、プログラムを記録したDVD(Digital Versatile Disc)又はCD-ROM(Compact Disc Read Only Memory)などの可搬型記録媒体を販売、譲渡、又は貸与することによって行う。またプログラムの流通は、プログラムをサーバのストレージに格納しておき、サーバから他のコンピュータにプログラムを送信することにより行ってもよい。またプログラムはプログラムプロダクトとして提供されてもよい。本開示は、プロセッサが実行可能なプログラムとしても実現可能である。
【符号の説明】
【0065】
D 情報処理装置
1 制御部
2 通信部
3 記憶部
31 記事DB
図1
図2
図3
図4