特許7212642 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤフー株式会社の特許一覧

特許7212642情報処理装置、情報処理方法及び情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-01-17

(45)【発行日】2023-01-25

(54)【発明の名称】情報処理装置、情報処理方法及び情報処理プログラム

(51)【国際特許分類】

G06N 20/00 20190101AFI20230118BHJP

G06F 40/279 20200101ALI20230118BHJP

【ＦＩ】

G06N20/00

G06F40/279

【請求項の数】 8

(21)【出願番号】P 2020049566

(22)【出願日】2020-03-19

(65)【公開番号】P2021149606

(43)【公開日】2021-09-27

【審査請求日】2021-08-19

(73)【特許権者】

【識別番号】319013263

【氏名又は名称】ヤフー株式会社

(74)【代理人】

【識別番号】110002147

【氏名又は名称】弁理士法人酒井国際特許事務所

(72)【発明者】

【氏名】柴田知秀

(72)【発明者】

【氏名】小林隼人

(72)【発明者】

【氏名】田口拓明

【審査官】北川純次

(56)【参考文献】

【文献】特開２０１９－０５３５５８（ＪＰ，Ａ）

【文献】日暮立ほか，ランク学習によるＹａｈｏｏ！知恵袋の見出し生成，一般社団法人人工知能学会第３２回全国大会論文集ＤＶＤ［ＤＶＤ－ＲＯＭ］２０１８年度人工知能学会全国大会（第３２回），2018年06月08日，p. 1-4

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｎ２０／００

Ｇ０６Ｎ３／０２－３／１０

Ｇ０６Ｆ４０／２０－４０／２７９

(57)【特許請求の範囲】

【請求項1】

コンテンツから当該コンテンツの内容を示す示唆情報を生成する生成モデルを用いて、所定のコンテンツから示唆情報を生成する生成部と、
前記生成部により生成された示唆情報の出力対象となる利用者の属性に対応する属性を有するクラウドワーカーから、評価の基準となる基準生成モデルを用いて生成された基準示唆情報と生成者によって生成された人手示唆情報のうちいずれが好ましいかを示す評価結果をクラウドソージングによって取得する取得部と、
前記取得部により取得された評価結果に基づいて、同一の対象コンテンツの内容を示す複数の示唆情報のうちいずれが好ましいかを評価する評価モデルを学習する評価学習部と、
前記評価学習部が学習した評価モデルを用いて、前記生成部により生成された示唆情報を評価する評価部と、
前記評価部による評価結果に基づいて、前記生成モデルを強化学習する強化学習部と、
を有することを特徴とする情報処理装置。

【請求項2】

前記生成部は、
前記所定のコンテンツの内容を要約した見出しである前記示唆情報を生成する、
ことを特徴とする請求項１に記載の情報処理装置。

【請求項3】

前記生成部は、
利用者によって前記示唆情報が選択された場合に、前記所定のコンテンツに遷移可能な前記示唆情報を生成する、
ことを特徴とする請求項１または２に記載の情報処理装置。

【請求項4】

前記評価学習部は、
前記取得部により取得された評価結果が好ましくない方の示唆情報と比べて、前記取得部により取得された評価結果が好ましい方の示唆情報をより高く評価するように前記評価モデルを学習する、
ことを特徴とする請求項１～３のいずれか１つに記載の情報処理装置。

【請求項5】

前記強化学習部は、
前記生成部により生成された示唆情報に対する前記評価部による評価結果が高いほど、高い報酬を設定して、前記生成モデルを強化学習する、
ことを特徴とする請求項１～４のいずれか１つに記載の情報処理装置。

【請求項6】

前記評価部は、
評価の基準となる基準生成モデルを用いて生成された基準示唆情報と、前記生成部により生成された示唆情報のうちいずれが好ましいかを評価し、
前記強化学習部は、
前記生成部により生成された示唆情報の方が前記基準示唆情報よりも好ましいと前記評価部により評価された場合は、より高い報酬を設定して、前記生成モデルを強化学習する、
ことを特徴とする請求項１～５のいずれか１つに記載の情報処理装置。

【請求項7】

コンピュータが実行する情報処理方法であって、
コンテンツから当該コンテンツの内容を示す示唆情報を生成する生成モデルを用いて、所定のコンテンツから示唆情報を生成する生成工程と、
前記生成工程により生成された示唆情報の出力対象となる利用者の属性に対応する属性を有するクラウドワーカーから、評価の基準となる基準生成モデルを用いて生成された基準示唆情報と生成者によって生成された人手示唆情報のうちいずれが好ましいかを示す評価結果をクラウドソージングによって取得する取得工程と、
前記取得工程により取得された評価結果に基づいて、同一の対象コンテンツの内容を示す複数の示唆情報のうちいずれが好ましいかを評価する評価モデルを学習する評価学習工程と、
前記評価学習工程が学習した同一の対象コンテンツの内容を示す複数の示唆情報のうちいずれが好ましいかを学習した評価モデルを用いて、前記生成工程により生成された示唆情報を評価する評価工程と、
前記評価工程による評価結果に基づいて、前記生成モデルを強化学習する強化学習工程と、
を含むことを特徴とする情報処理方法。

【請求項8】

コンテンツから当該コンテンツの内容を示す示唆情報を生成する生成モデルを用いて、所定のコンテンツから示唆情報を生成する生成手順と、
前記生成手順により生成された示唆情報の出力対象となる利用者の属性に対応する属性を有するクラウドワーカーから、評価の基準となる基準生成モデルを用いて生成された基準示唆情報と生成者によって生成された人手示唆情報のうちいずれが好ましいかを示す評価結果をクラウドソージングによって取得する取得手順と、
前記取得手順により取得された評価結果に基づいて、同一の対象コンテンツの内容を示す複数の示唆情報のうちいずれが好ましいかを評価する評価モデルを学習する評価学習手順と、
前記評価学習手順が学習した評価モデルを用いて、前記生成手順により生成された示唆情報を評価する評価手順と、
前記評価手順による評価結果に基づいて、前記生成モデルを強化学習する強化学習手順と、
をコンピュータに実行させることを特徴とする情報処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。

【背景技術】

【0002】

近年、自然言語処理（Natural Language Processing）の分野で深層学習 (Deep Learning)に関する多くの技術が提案されている。例えば、Seq2Seq（sequence-to-sequence）等の機械学習モデルを用いて、文章から文章の要約を生成する技術が提案されている。

【先行技術文献】

【非特許文献】

【0003】

【文献】”Neural Machine Translation by Jointly Learning to Align and Translate”, Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio， Proceedings of the International Conference on Learning Representations 2015,［online］,［令和２年３月１８日検索］，インターネット＜URL：https://arxiv.org/abs/1409.0473＞

【文献】”Effective Approaches to Attention-based Neural Machine Translation ”，Thang Luong, Hieu Pham, Christopher D. Manning， Proceedings of the Conference on Empirical Methods in Natural Language Processing，［online］,［令和２年３月１８日検索］，インターネット＜URL：https://www.aclweb.org/anthology/D15-1166/＞

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、上記の従来技術では、適切なモデルを学習しているとは言えない場合がある。例えば、上記の従来技術では、単語単位で正しい出力ができるようSeq2Seq等の機械学習モデルを学習しているが、このようなSeq2Seq等の機械学習モデルは文全体としての良さを評価して学習していない。このため、例えば、利用者が興味を有し得る要約を生成しているとは言えない場合がある。

【0005】

そこで、本開示では、適切なモデルを学習することができる情報処理装置、情報処理方法及び情報処理プログラムを提案する。

【課題を解決するための手段】

【0006】

本願に係る情報処理装置は、コンテンツから当該コンテンツの内容を示す示唆情報を生成する生成モデルを用いて、所定のコンテンツから示唆情報を生成する生成部と、同一の対象コンテンツの内容を示す複数の示唆情報のうちいずれが好ましいかを学習した評価モデルを用いて、前記生成部により生成された示唆情報を評価する評価部と、前記評価部による評価結果に基づいて、前記生成モデルを強化学習する強化学習部と、を有することを特徴とする。

【発明の効果】

【0007】

実施形態の一態様によれば、適切なモデルを学習することができるといった効果を奏する。

【図面の簡単な説明】

【0008】

【図1】図１は、実施形態に係る情報処理方法の概要を示す説明図である。

【図2】図２は、実施形態に係る情報処理装置の構成例を示す図である。

【図3】図３は、実施形態に係る見出し情報記憶部の一例を示す図である。

【図4】図４は、実施形態に係る情報処理手順を示すフローチャートである。

【図5】図５は、実施形態に係る情報処理手順を示すフローチャートである。

【図6】図６は、プログラムを実行するコンピュータのハードウェア構成の一例を示す図である。

【発明を実施するための形態】

【0009】

以下に、本願に係る情報処理装置、情報処理方法及び情報処理プログラムを実施するための形態（以下、「実施形態」と呼ぶ）について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法及び情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略する。

【0010】

〔１．情報処理方法の概要〕
まず、図１を参照し、実施形態に係る情報処理装置が行う情報処理方法の概要について説明する。図１は、実施形態に係る情報処理方法の概要を示す説明図である。図１に示す例では、情報処理装置１００は、クラウドソーシングを用いて、同一の対象コンテンツ（例えば、ニュース記事等）の内容を示す複数の見出しのうちいずれが好ましいかを評価する評価モデルを学習する（第１段階）。続いて、情報処理装置１００は、第１段階で学習済みの評価モデルを用いて、コンテンツから当該コンテンツの内容を示す見出しを生成する生成モデルを用いて生成されたコンテンツの見出しを評価する。続いて、情報処理装置１００は、評価モデルから出力された評価結果を報酬として、生成モデルを強化学習する（第２段階）。

【0011】

ここで、近年、文章を生成する文章生成モデルの精度が高くなっており、文章生成モデルの精度を向上させることは容易ではなくなっている。例えば、近年、コンテンツから見出しを生成する見出し生成モデルの中には、人手によって生成される見出しと見分けがつかないような見出しを生成できるものが存在する。

【0012】

このような文章生成モデルの一例として、Seq2Seqがある。Seq2Seqは単語単位で正しい出力ができるよう学習しているが、文全体としての良さを明示的に評価して学習していない。このため、例えば、利用者が興味を有し得る要約を生成しているとは言えない場合がある。

【0013】

そこで、本願に係る情報処理装置１００は、コンテンツから当該コンテンツの内容を示す見出しを生成する生成モデルを用いて、所定のコンテンツから見出しを生成する。また、情報処理装置１００は、同一の対象コンテンツの内容を示す複数の見出しのうちいずれが好ましいかを学習した評価モデルを用いて、生成モデルを用いて生成された見出しを評価する。また、情報処理装置１００は、評価モデルから出力された評価結果に基づいて、生成モデルを強化学習する。

【0014】

これにより、情報処理装置１００は、文全体としての良さを評価する評価モデルをあらかじめ学習しておき、その出力を強化学習で取り込むことによって、見出し生成の生成モデルの質を向上させることができる。したがって、情報処理装置１００は、適切なモデルを学習することができる。

【0015】

図１の説明に戻る。図１に示す第１段階では、まず、情報処理装置１００は、同一のコンテンツの内容を要約した見出しであって、異なる２種類の方法で生成された見出しを取得する。例えば、情報処理装置１００は、コンテンツの見出しを生成する編集者（以下、生成者ともいう）によって生成されたコンテンツＣ１の見出しＡを取得する。なお、以下では、生成者によって人手で生成された見出しのことを人手見出しと記載する場合がある。また、情報処理装置１００は、Seq2Seq等の公知の技術を用いて生成されたモデルであって、コンテンツから当該コンテンツの見出しを生成する基準生成モデルを用いて生成されたコンテンツＣ１の見出しＢを取得する。ここで、基準生成モデルは、後述する強化学習の対象である生成モデルに対する評価の基準となるモデルである。なお、以下では、基準生成モデルを用いて生成された見出しのことを基準見出しと記載する場合がある。

【0016】

続いて、情報処理装置１００は、生成者によって生成された見出しＡと基準生成モデルを用いて生成された見出しＢのうちいずれが好ましいかを示す評価結果をクラウドソージングによって取得する（ステップＳ１）。例えば、情報処理装置１００は、クラウドワーカー１０人に対して見出しＡと見出しＢのペアを提示する。続いて、情報処理装置１００は、見出しＡと見出しＢのどちらの見出しが好ましいか（例えば、見出しＡと見出しＢのどちらをクリックしたくなるか）を示す評価結果をそれぞれのクラウドワーカーから取得する。続いて、情報処理装置１００は、それぞれのクラウドワーカーから取得した評価結果に基づいて、見出しＡの得票数（例えば、８人）と見出しＢの得票数（例えば、２人）を算出する。また、情報処理装置１００は、算出した見出しＡの得票数と見出しＢの得票数を比較して、得票数が多い方の見出しが好ましいという評価結果を取得する。

【0017】

同様にして、情報処理装置１００は、見出しＡと見出しＢのペアの他にも、多数の同一の対象コンテンツについて、人手見出しと基準見出しの多数のペアを用意する。続いて、情報処理装置１００は、人手見出しと基準見出しの多数のペアそれぞれについて、いずれが好ましいかを示す評価結果をクラウドソージングによって取得する。

【0018】

続いて、情報処理装置１００は、クラウドソージングによって取得された多数のペアそれぞれに対する評価結果に基づいて、同一の対象コンテンツの内容を示す複数の見出しのうちいずれが好ましいかを評価する評価モデルを学習する（ステップＳ２）。例えば、情報処理装置１００は、評価結果が好ましくない方（例えば、得票数が少ない方）の見出しと評価結果が好ましい方（例えば、得票数が多い方）の見出しのペアを入力情報として評価モデルに入力した場合、評価結果が好ましい方（例えば、得票数が多い方）の見出しを示す情報を出力情報として出力するよう評価モデルを学習する。あるいは、情報処理装置１００は、評価結果が好ましくない方（例えば、得票数が少ない方）の見出しと評価結果が好ましい方（例えば、得票数が多い方）の見出しのペアを入力情報として評価モデルに入力した場合、それぞれの見出しについて得票数に基づくスコアを出力情報として出力するよう評価モデルを学習してもよい。

【0019】

続いて、図１に示す第２段階では、情報処理装置１００は、第１段階で学習済みの評価モデルを用いて、コンテンツから当該コンテンツの内容を示す見出しを生成する生成モデルを用いて生成された見出しを評価する（ステップＳ３）。例えば、情報処理装置１００は、生成モデルを用いて、コンテンツＣ２から見出しＤを生成する。なお、以下では、生成モデルを用いて生成された見出しのことを生成見出しと記載する場合がある。また、情報処理装置１００は、生成モデルに対する評価の基準となる基準生成モデルを用いて、コンテンツＣ２から見出しＥを生成する。続いて、情報処理装置１００は、生成モデルを用いて生成された見出しＤと基準生成モデルを用いて生成された見出しＥのペアを取得すると、取得した見出しＤと見出しＥのペアを入力情報として評価モデルに入力する。続いて、情報処理装置１００は、見出しＤの好ましさを示す評価値と見出しＥの好ましさを示す評価値を評価モデルの出力情報として出力する。図１では、評価モデルは、見出しＤ評価値を「３０点」、見出しＥの評価値を「８０点」と評価する。そして、情報処理装置１００は、見出しＤの評価値を示す「３０点」と見出しＥの評価値を示す「８０点」を評価モデルの出力情報として出力する。

【0020】

続いて、情報処理装置１００は、評価モデルから出力された評価結果を報酬として、生成モデルを強化学習する（ステップＳ４）。例えば、情報処理装置１００は、生成モデルを用いて生成された生成見出しの評価値の方が高い（つまり、生成見出しの方が基準見出しより好ましいと評価された）場合には、正の報酬を設定して生成モデルを強化学習する。一方、情報処理装置１００は、基準見出しの評価値の方が高い（つまり、基準見出しの方が生成見出しより好ましいと評価された）場合には、負の報酬を設定して生成モデルを強化学習する。図１では、情報処理装置１００は、生成モデルを用いて生成された見出しＥの評価値の方が高い（つまり、見出しＥの方が見出しＤより好ましいと評価された）ので、正の報酬を設定して生成モデルを強化学習する。

【0021】

同様にして、情報処理装置１００は、多数の同一の対象コンテンツについて、基準見出しと生成見出しのペアを用意する。続いて、情報処理装置１００は、基準見出しと生成見出しの多数のペアそれぞれを入力情報として評価モデルに入力する。続いて、情報処理装置１００は、基準見出しと生成見出しの多数のペアそれぞれについていずれが好ましいかを示す評価結果を評価モデルの出力情報として出力する。続いて、情報処理装置１００は、評価モデルから出力された評価結果それぞれを報酬として、多数のペアそれぞれについて生成モデルを強化学習する。

【0022】

また、図１での図示は省略するが、情報処理装置１００は、生成モデルを強化学習すると、強化学習された生成モデルを用いて、所定のコンテンツから見出しを生成する。続いて、情報処理装置１００は、強化学習された生成モデルを用いて見出しを生成すると、生成した見出しを出力する。

【0023】

なお、図１では、コンテンツがニュース記事等のテキストコンテンツであり、当該コンテンツの内容を示す示唆情報が見出しである例について説明したが、これに限られない。具体的には、コンテンツと示唆情報とは、コンテンツと当該コンテンツの内容や当該コンテンツのコンテキストを示唆するものであればなんでもよい。例えば、コンテンツが音楽コンテンツであり、当該コンテンツの内容を示す示唆情報が楽曲のサンプルであってもよい。また、コンテンツが画像コンテンツ（動画像または静止画像）であり、当該コンテンツの内容を示す示唆情報がサムネイルであってもよい。

【0024】

〔２．情報処理装置の構成例〕
次に、図２を用いて、実施形態に係る情報処理装置１００の構成について説明する。図２は、実施形態に係る情報処理装置１００の構成例を示す図である。図２に示すように、情報処理装置１００は、通信部１１０と、記憶部１２０と、制御部１３０とを有する。なお、情報処理装置１００は、情報処理装置１００の管理者等から各種操作を受け付ける入力部（例えば、キーボードやマウス等）や、各種情報を表示させるための表示部（例えば、液晶ディスプレイ等）を有してもよい。

【0025】

（通信部１１０）
通信部１１０は、例えば、ＮＩＣ（Network Interface Card）等によって実現される。そして、通信部１１０は、ネットワークと有線または無線で接続され、例えば、クラウドワーカーや生成者の端末装置との間で情報の送受信を行う。

【0026】

（記憶部１２０）
記憶部１２０は、例えば、ＲＡＭ（Random Access Memory)、フラッシュメモリ（Flash Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部１２０は、図３に示すように、見出し情報記憶部１２１を有する。

【0027】

（見出し情報記憶部１２１）
見出し情報記憶部１２１は、見出しに関する各種の情報を記憶する。図３に、実施形態に係る見出し情報記憶部の一例を示す。図３に示す例では、見出し情報記憶部１２１は、「見出しＩＤ」、「見出し」、「コンテンツＵＲＬ」といった項目を有する。

【0028】

「見出しＩＤ」は、見出しを識別する識別情報を示す。「見出し」は、コンテンツの見出しを示す。「コンテンツＵＲＬ」は、見出しの元となるコンテンツのＵＲＬを示す。

【0029】

（制御部１３０）
図２の説明に戻って、制御部１３０は、コントローラ（controller）であり、例えば、ＣＰＵ（Central Processing Unit）やＭＰＵ（Micro Processing Unit）、また多大な計算パワーを必要とすることからＧＰＵ（Graphics Processing Unit）等によって、情報処理装置１００内部の記憶装置に記憶されている各種プログラム（情報処理プログラムの一例に相当）がＲＡＭを作業領域として実行されることにより実現される。また、制御部１３０は、コントローラであり、例えば、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）等の集積回路により実現される。

【0030】

図２に示すように、制御部１３０は、取得部１３１と、学習部１３２と、生成部１３３と、評価学習部１３４と、評価部１３５と、強化学習部１３６を有し、以下に説明する情報処理の作用を実現または実行する。なお、制御部１３０の内部構成は、図２に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。

【0031】

（取得部１３１）
取得部１３１は、生成者によって生成されたコンテンツの見出しを取得する。例えば、取得部１３１は、生成者によって利用される端末装置（図示略）から生成者によって生成された見出しを取得する。取得部１３１は、見出し情報を取得すると、取得した見出し情報を見出し情報記憶部１２１に格納する。

【0032】

また、取得部１３１は、評価の基準となる基準生成モデルを用いて生成された基準示唆情報と生成者によって生成された人手示唆情報のうちいずれが好ましいかを示す評価結果をクラウドソージングによって取得する。具体的には、取得部１３１は、評価の基準となる基準生成モデルを用いて生成されたコンテンツの基準見出しと生成者によって生成されたコンテンツの人手見出しのうちいずれが好ましいかを示す評価結果をクラウドソージングによって取得する。

【0033】

例えば、取得部１３１は、複数のクラウドワーカー（例えば、１０人のクラウドワーカー）に対して基準見出しと人手見出しのペアを提示する。続いて、取得部１３１は、基準見出しと人手見出しのどちらの見出しが好ましいか（例えば、基準見出しと人手見出しのどちらをクリックしたくなるか）を示す評価結果をそれぞれのクラウドワーカーから取得する。続いて、取得部１３１は、それぞれのクラウドワーカーから取得した評価結果に基づいて、基準見出しの得票数（例えば、８人）と人手見出しの得票数（例えば、２人）を算出する。また、取得部１３１は、算出した基準見出しの得票数と人手見出しの得票数を比較して、得票数が多い方の見出しが好ましいという評価結果を取得する。

【0034】

同様にして、取得部１３１は、多数のコンテンツについて、人手見出しと基準見出しのペアを用意する。続いて、取得部１３１は、多数の見出しのペアそれぞれについていずれが好ましいかを示す評価結果をクラウドソージングによって取得する。

【0035】

また、取得部１３１は、クラウドワーカーの属性を限定して、多数の見出しのペアそれぞれについていずれが好ましいかを示す評価結果をクラウドソージングによって取得してもよい。評価学習部１３４は、取得部１３１が取得した研究者向け、女性向け、男性向け、中年向け、若年層向け、…など利用者の属性に応じた好みを反映した評価結果に基づいて評価モデルを学習する。これにより、強化学習部１３６は、研究者向け、女性向け、男性向け、中年向け、若年層向け、…など利用者の属性に応じた生成モデルを強化学習することができる。

【0036】

また、取得部１３１は、クラウドソージングを行う利用者の属性をばらけさせることで一般化を図ってもよい。具体的には、取得部１３１は、特定の属性に偏らないように、幅広い属性からバランスよくクラウドワーカーを抽出して、抽出されたクラウドワーカーから多数の見出しのペアそれぞれについていずれが好ましいかを示す評価結果を取得する。これにより、強化学習部１３６は、一般的な利用者向けの生成モデルを強化学習することができる。

【0037】

（学習部１３２）
学習部１３２は、コンテンツから当該コンテンツの内容を示す示唆情報を生成する生成モデルを生成する。具体的には、学習部１３２は、Seq2Seq等の公知の技術を用いて、ニュース記事等であるコンテンツが入力情報として生成モデルに入力された場合に、当該コンテンツの見出しを出力情報として出力するよう生成モデルを学習する。

【0038】

また、学習部１３２は、評価部１３５による評価の基準となる基準生成モデルを生成する。例えば、学習部１３２は、生成モデルと同様に基準生成モデルを学習する。

【0039】

（生成部１３３）
生成部１３３は、コンテンツから当該コンテンツの内容を示す示唆情報を生成する生成モデルを用いて、所定のコンテンツから示唆情報を生成する。具体的には、生成部１３３は、学習部１３２が学習した生成モデルを用いて、所定のコンテンツから示唆情報を生成する。また、生成部１３３は、学習部１３２が学習した基準生成モデルを用いて、所定のコンテンツから基準示唆情報を生成する。例えば、生成部１３３は、所定のコンテンツの内容を要約した見出しである示唆情報を生成する。

【0040】

また、生成部１３３は、利用者によって示唆情報が選択された場合に、所定のコンテンツに遷移可能な示唆情報を生成する。例えば、生成部１３３は、利用者によって見出しが選択された場合に、見出しに対応する所定のコンテンツに遷移可能なリンクが埋め込まれた示唆情報を生成する。

【0041】

（評価学習部１３４）
評価学習部１３４は、取得部１３１により取得された情報に基づいて、評価モデルを学習する。具体的には、評価学習部１３４は、取得部１３１により取得された評価結果が好ましくない方の示唆情報と比べて、取得部１３１により取得された評価結果が好ましい方の示唆情報をより高く評価するように評価モデルを学習する。

【0042】

例えば、評価学習部１３４は、取得部１３１により取得された多数の見出しのペアそれぞれに対する評価結果に基づいて、同一の対象コンテンツの内容を示す複数の見出しのうちいずれが好ましいかを評価する評価モデルを学習する。例えば、評価学習部１３４は、評価結果が好ましくない方（例えば、得票数が少ない方）の見出しと評価結果が好ましい方（例えば、得票数が多い方）の見出しのペアを入力情報として評価モデルに入力した場合、評価結果が好ましい方（例えば、得票数が多い方）の見出しを示す情報を出力情報として出力するよう評価モデルを学習する。

【0043】

あるいは、評価学習部１３４は、評価結果が好ましくない方（例えば、得票数が少ない方）の見出しと評価結果が好ましい方（例えば、得票数が多い方）の見出しのペアを入力情報として評価モデルに入力した場合、それぞれの見出しの好ましさを示すスコア（例えば、得票数に比例するスコア）を出力情報として出力するよう評価モデルを学習してもよい。

【0044】

（評価部１３５）
評価部１３５は、同一の対象コンテンツの内容を示す複数の示唆情報のうちいずれが好ましいかを学習した評価モデルを用いて、生成部１３３により生成された示唆情報を評価する。具体的には、評価部１３５は、評価の基準となる基準生成モデルを用いて生成された基準示唆情報と、生成者によって生成された人手示唆情報のうちいずれが好ましいかを学習した評価モデルを用いて、生成部１３３により生成された示唆情報を評価する。より具体的には、評価部１３５は、評価の基準となる基準生成モデルを用いて生成された基準示唆情報と、生成部１３３により生成された示唆情報のうちいずれが好ましいかを評価する。

【0045】

例えば、評価部１３５は、評価学習部１３４が学習した評価モデルを用いて、生成モデルを用いて生成された見出しを評価する。例えば、評価部１３５は、生成部１３３により生成モデルを用いて生成された見出しと、基準生成モデルを用いて生成された基準見出しのペアを入力情報として評価モデルに入力して、それぞれの見出しの好ましさを示す評価値をそれぞれ出力情報として出力する。あるいは、評価部１３５は、生成部１３３により生成モデルを用いて生成された見出しと、基準生成モデルを用いて生成された基準見出しのペアを入力情報として評価モデルに入力して、生成モデルを用いて生成された見出しと基準見出しのうち好ましいと評価した方の見出しを示す情報（例えば、見出しそのもの、または見出しを識別する識別情報）を出力情報として出力してもよい。

【0046】

（強化学習部１３６）
強化学習部１３６は、評価部１３５による評価結果に基づいて、生成モデルを強化学習する。具体的には、強化学習部１３６は、生成部１３３により生成された示唆情報に対する評価部１３５による評価結果が高いほど、高い報酬を設定して、生成モデルを強化学習する。例えば、強化学習部１３６は、生成部１３３により生成された示唆情報の方が基準示唆情報よりも好ましいと評価部１３５により評価された場合は、より高い報酬を設定して、生成モデルを強化学習する。

【0047】

例えば、強化学習部１３６は、評価部１３５による評価結果を報酬として、生成モデルを強化学習する。例えば、強化学習部１３６は、評価部１３５による評価の結果、生成モデルを用いて生成された生成見出しの評価値の方が高い（つまり、生成見出しの方が基準見出しより好ましいと評価された）場合には、正の報酬を設定して生成モデルを強化学習する。例えば、強化学習部１３６は、生成見出しの評価値と基準見出しの評価値との差分の大きさに比例する正の報酬を設定して生成モデルを強化学習する。一方、強化学習部１３６は、評価部１３５による評価の結果、基準見出しの評価値の方が高い（つまり、基準見出しの方が生成見出しより好ましいと評価された）場合には、負の報酬を設定して生成モデルを強化学習する。例えば、強化学習部１３６は、基準見出しの評価値と基準見出しの評価値との差分の大きさに比例する負の報酬を設定して生成モデルを強化学習する。

【0048】

（出力部１３７）
出力部１３７は、強化学習部１３６によって強化学習された生成モデルを用いて、所定のコンテンツから示唆情報を生成する。例えば、出力部１３７は、強化学習部１３６によって強化学習された生成モデルを用いて、所定のコンテンツから所定のコンテンツの内容を要約した見出しである示唆情報を生成する。続いて、出力部１３７は、示唆情報を生成すると、生成した示唆情報を出力する。例えば、出力部１３７は、強化学習部１３６によって強化学習された生成モデルを用いて、所定のコンテンツから所定のコンテンツの内容を要約した見出しである示唆情報を生成すると、生成した見出しを出力する。

【0049】

〔３．情報処理の手順〕
次に、図４を用いて、実施形態に係る情報処理の手順について説明する。図４は、実施形態に係る情報処理手順を示すフローチャートである。図４に示す例では、情報処理装置１００は、生成者によって生成されたコンテンツの見出しを取得する（ステップＳ１０１）。また、情報処理装置１００は、生成者によって生成された見出しに対応するコンテンツと同一のコンテンツの見出しを基準生成モデルによって生成する（ステップＳ１０２）。続いて、情報処理装置１００は、生成者によって生成された見出しと基準生成モデルによって生成された見出しのいずれが好ましいかをクラウドソーシングによって取得する（ステップＳ１０３）。

【0050】

続いて、情報処理装置１００は、クラウドソーシングによって取得した情報に基づいて評価モデルを学習する（ステップＳ１０４）。例えば、情報処理装置１００は、生成者によって生成された見出しと基準生成モデルによって生成された見出しの両方を評価モデルに入力した場合、生成者によって生成された見出しと基準生成モデルによって生成された見出しのいずれが好ましいかを出力するよう評価学習モデルを学習する。

【0051】

次に、図５を用いて、実施形態に係る情報処理の手順について説明する。図５は、実施形態に係る情報処理手順を示すフローチャートである。図５に示す例では、情報処理装置１００は、基準生成モデルと生成モデルのそれぞれによって同一の対象コンテンツの見出しを生成する（ステップＳ２０１）。続いて、情報処理装置１００は、基準生成モデルによって生成された見出しと生成モデルによって生成された見出しのいずれが好ましいかを評価モデルによって評価する（ステップＳ２０２）。

【0052】

続いて、情報処理装置１００は、評価モデルの評価結果を報酬として生成モデルを強化学習する（ステップＳ２０３）。例えば、情報処理装置１００は、評価モデルによる評価の結果、基準生成モデルによって生成された基準見出しの評価値よりも、生成モデルによって生成された生成見出しの評価値の方が高い（つまり、基準見出しよりも生成見出しの方が好ましいと評価された）場合には、正の報酬を設定して生成モデルを強化学習する。また、情報処理装置１００は、評価モデルによる評価の結果、基準生成モデルによって生成された基準見出しの評価値の方が、生成モデルによって生成された生成見出しの評価値よりも高い（つまり、基準見出しの方が生成見出しよりも好ましいと評価された）場合には、負の報酬を設定して生成モデルを強化学習する。

【0053】

〔４．効果〕
上述してきたように、実施形態に係る情報処理装置１００は、生成部１３３と評価部１３５と強化学習部１３６を有する。生成部１３３は、コンテンツから当該コンテンツの内容を示す示唆情報を生成する生成モデルを用いて、所定のコンテンツから示唆情報を生成する。評価部１３５は、同一の対象コンテンツの内容を示す複数の示唆情報のうちいずれが好ましいかを学習した評価モデルを用いて、生成部１３３により生成された示唆情報を評価する。強化学習部１３６は、評価部１３５による評価結果に基づいて、生成モデルを強化学習する。

【0054】

【0055】

また、生成部１３３は、所定のコンテンツの内容を要約した見出しである示唆情報を生成する。

【0056】

これにより、情報処理装置１００は、コンテンツの内容を要約した見出しを生成する生成モデルの質を向上させることができる。

【0057】

また、生成部１３３は、利用者によって示唆情報が選択された場合に、所定のコンテンツに遷移可能な示唆情報を生成する。

【0058】

これにより、情報処理装置１００は、示唆情報に興味を示した利用者が、示唆情報に対応するコンテンツを閲覧する利便性を向上させることができる。

【0059】

また、評価部１３５は、評価の基準となる基準生成モデルを用いて生成された基準示唆情報と、生成者によって生成された人手示唆情報のうちいずれが好ましいかを学習した評価モデルを用いて、生成部１３３により生成された示唆情報を評価する。

【0060】

これにより、情報処理装置１００は、人手によって生成される示唆情報と同程度かそれ以上に好ましい示唆情報を生成可能にする。

【0061】

また、情報処理装置１００は、取得部１３１と評価学習部１３４とをさらに有する。取得部１３１は、基準示唆情報と人手示唆情報のうちいずれが好ましいかを示す評価結果をクラウドソージングによって取得する。評価学習部１３４は、取得部１３１により取得された評価結果に基づいて、評価モデルを学習する。また、評価学習部１３４は、取得部１３１により取得された評価結果が好ましくない方の示唆情報と比べて、取得部１３１により取得された評価結果が好ましい方の示唆情報をより高く評価するように評価モデルを学習する。

【0062】

これにより、情報処理装置１００は、クラウドワーカーによる評価を考慮した学習を評価モデルに行わせることができる。つまり、情報処理装置１００は、クラウドワーカーによる評価を通じて、見出し等の文全体としての良さに対する評価を学習することができる。情報処理装置１００は、文全体としての良さを評価する評価モデルを学習することができる。

【0063】

また、強化学習部１３６は、生成部１３３により生成された示唆情報に対する評価部１３５による評価結果が高いほど、高い報酬を設定して、生成モデルを強化学習する。
また、評価部１３５は、評価の基準となる基準生成モデルを用いて生成された基準示唆情報と、生成部１３３により生成された示唆情報のうちいずれが好ましいかを評価する。強化学習部１３６は、生成部１３３により生成された示唆情報の方が基準示唆情報よりも好ましいと評価部１３５により評価された場合は、より高い報酬を設定して、生成モデルを強化学習する。

【0064】

これにより、情報処理装置１００は、利用者による評価を考慮した示唆情報を生成するよう生成モデルを学習させることができる。

【0065】

〔５．ハードウェア構成〕
また、上述してきた実施形態に係る情報処理装置１００は、例えば図６に示すような構成のコンピュータ１０００によって実現される。図６は、情報処理装置１００の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ１０００は、ＣＰＵ１１００、ＲＡＭ１２００、ＲＯＭ１３００、ＨＤＤ１４００、通信インターフェイス（Ｉ／Ｆ）１５００、入出力インターフェイス（Ｉ／Ｆ）１６００、及びメディアインターフェイス（Ｉ／Ｆ）１７００を備える。

【0066】

ＣＰＵ１１００は、ＲＯＭ１３００またはＨＤＤ１４００に格納されたプログラムに基づいて動作し、各部の制御を行う。ＲＯＭ１３００は、コンピュータ１０００の起動時にＣＰＵ１１００によって実行されるブートプログラムや、コンピュータ１０００のハードウェアに依存するプログラム等を格納する。

【0067】

ＨＤＤ１４００は、ＣＰＵ１１００によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス１５００は、所定の通信網を介して他の機器からデータを受信してＣＰＵ１１００へ送り、ＣＰＵ１１００が生成したデータを所定の通信網を介して他の機器へ送信する。

【0068】

ＣＰＵ１１００は、入出力インターフェイス１６００を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。ＣＰＵ１１００は、入出力インターフェイス１６００を介して、入力装置からデータを取得する。また、ＣＰＵ１１００は、生成したデータを入出力インターフェイス１６００を介して出力装置へ出力する。なお、ＣＰＵ１１００の代わりに、ＭＰＵ（Micro Processing Unit）、また多大な計算パワーを必要とすることからＧＰＵ（Graphics Processing Unit）を用いてもよい。

【0069】

メディアインターフェイス１７００は、記録媒体１８００に格納されたプログラムまたはデータを読み取り、ＲＡＭ１２００を介してＣＰＵ１１００に提供する。ＣＰＵ１１００は、かかるプログラムを、メディアインターフェイス１７００を介して記録媒体１８００からＲＡＭ１２００上にロードし、ロードしたプログラムを実行する。記録媒体１８００は、例えばＤＶＤ（Digital Versatile Disc）、ＰＤ（Phase change rewritable Disk）等の光学記録媒体、ＭＯ（Magneto-Optical disk）等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。

【0070】

例えば、コンピュータ１０００が情報処理装置１００として機能する場合、コンピュータ１０００のＣＰＵ１１００は、ＲＡＭ１２００上にロードされたプログラムを実行することにより、制御部１３０の機能を実現する。コンピュータ１０００のＣＰＵ１１００は、これらのプログラムを記録媒体１８００から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。

【0071】

以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。

【0072】

〔６．その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。

【0073】

また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。

【0074】

また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。

【0075】

また、上述してきた「部（section、module、unit）」は、「手段」や「回路」などに読み替えることができる。例えば、生成部は、生成手段や生成回路に読み替えることができる。

【符号の説明】

【0076】

１情報処理システム
１００情報処理装置
１１０通信部
１２０記憶部
１２１見出し情報記憶部
１３０制御部
１３１取得部
１３２学習部
１３３生成部
１３４評価学習部
１３５評価部
１３６強化学習部
１３７出力部

【図1】