(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-01-17
(45)【発行日】2023-01-25
(54)【発明の名称】情報処理装置、情報処理方法及び情報処理プログラム
(51)【国際特許分類】
G06N 20/00 20190101AFI20230118BHJP
G06F 40/279 20200101ALI20230118BHJP
【FI】
G06N20/00
G06F40/279
(21)【出願番号】P 2020049566
(22)【出願日】2020-03-19
【審査請求日】2021-08-19
(73)【特許権者】
【識別番号】319013263
【氏名又は名称】ヤフー株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】柴田 知秀
(72)【発明者】
【氏名】小林 隼人
(72)【発明者】
【氏名】田口 拓明
【審査官】北川 純次
(56)【参考文献】
【文献】特開2019-053558(JP,A)
【文献】日暮 立ほか,ランク学習によるYahoo!知恵袋の見出し生成,一般社団法人 人工知能学会 第32回全国大会論文集DVD [DVD-ROM] 2018年度 人工知能学会全国大会(第32回),2018年06月08日,p. 1-4
(58)【調査した分野】(Int.Cl.,DB名)
G06N 20/00
G06N 3/02-3/10
G06F 40/20-40/279
(57)【特許請求の範囲】
【請求項1】
コンテンツから当該コンテンツの内容を示す示唆情報を生成する生成モデルを用いて、所定のコンテンツから示唆情報を生成する生成部と、
前記生成部により生成された示唆情報の出力対象となる利用者の属性に対応する属性を有するクラウドワーカーから、評価の基準となる基準生成モデルを用いて生成された基準示唆情報と生成者によって生成された人手示唆情報のうちいずれが好ましいかを示す評価結果をクラウドソージングによって取得する取得部と、
前記取得部により取得された評価結果に基づいて、同一の対象コンテンツの内容を示す複数の示唆情報のうちいずれが好ましいかを評価する評価モデルを学習する評価学習部と、
前記評価学習部が学習した評価モデルを用いて、前記生成部により生成された示唆情報を評価する評価部と、
前記評価部による評価結果に基づいて、前記生成モデルを強化学習する強化学習部と、
を有することを特徴とする情報処理装置。
【請求項2】
前記生成部は、
前記所定のコンテンツの内容を要約した見出しである前記示唆情報を生成する、
ことを特徴とする請求項1に記載の情報処理装置。
【請求項3】
前記生成部は、
利用者によって前記示唆情報が選択された場合に、前記所定のコンテンツに遷移可能な前記示唆情報を生成する、
ことを特徴とする請求項1または2に記載の情報処理装置。
【請求項4】
前記評価学習部は、
前記取得部により取得された評価結果が好ましくない方の示唆情報と比べて、前記取得部により取得された評価結果が好ましい方の示唆情報をより高く評価するように前記評価モデルを学習する、
ことを特徴とする請求項
1~3のいずれか1つに記載の情報処理装置。
【請求項5】
前記強化学習部は、
前記生成部により生成された示唆情報に対する前記評価部による評価結果が高いほど、高い報酬を設定して、前記生成モデルを強化学習する、
ことを特徴とする請求項1~
4のいずれか1つに記載の情報処理装置。
【請求項6】
前記評価部は、
評価の基準となる基準生成モデルを用いて生成された基準示唆情報と、前記生成部により生成された示唆情報のうちいずれが好ましいかを評価し、
前記強化学習部は、
前記生成部により生成された示唆情報の方が前記基準示唆情報よりも好ましいと前記評価部により評価された場合は、より高い報酬を設定して、前記生成モデルを強化学習する、
ことを特徴とする請求項1~
5のいずれか1つに記載の情報処理装置。
【請求項7】
コンピュータが実行する情報処理方法であって、
コンテンツから当該コンテンツの内容を示す示唆情報を生成する生成モデルを用いて、所定のコンテンツから示唆情報を生成する生成工程と、
前記生成工程により生成された示唆情報の出力対象となる利用者の属性に対応する属性を有するクラウドワーカーから、評価の基準となる基準生成モデルを用いて生成された基準示唆情報と生成者によって生成された人手示唆情報のうちいずれが好ましいかを示す評価結果をクラウドソージングによって取得する取得工程と、
前記取得工程により取得された評価結果に基づいて、同一の対象コンテンツの内容を示す複数の示唆情報のうちいずれが好ましいかを評価する評価モデルを学習する評価学習工程と、
前記評価学習工程が学習した同一の対象コンテンツの内容を示す複数の示唆情報のうちいずれが好ましいかを学習した評価モデルを用いて、前記生成工程により生成された示唆情報を評価する評価工程と、
前記評価工程による評価結果に基づいて、前記生成モデルを強化学習する強化学習工程と、
を含むことを特徴とする情報処理方法。
【請求項8】
コンテンツから当該コンテンツの内容を示す示唆情報を生成する生成モデルを用いて、所定のコンテンツから示唆情報を生成する生成手順と、
前記生成手順により生成された示唆情報の出力対象となる利用者の属性に対応する属性を有するクラウドワーカーから、評価の基準となる基準生成モデルを用いて生成された基準示唆情報と生成者によって生成された人手示唆情報のうちいずれが好ましいかを示す評価結果をクラウドソージングによって取得する取得手順と、
前記取得手順により取得された評価結果に基づいて、同一の対象コンテンツの内容を示す複数の示唆情報のうちいずれが好ましいかを評価する評価モデルを学習する評価学習手順と、
前記評価学習手順が学習した評価モデルを用いて、前記生成手順により生成された示唆情報を評価する評価手順と、
前記評価手順による評価結果に基づいて、前記生成モデルを強化学習する強化学習手順と、
をコンピュータに実行させることを特徴とする情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法及び情報処理プログラムに関する。
【背景技術】
【0002】
近年、自然言語処理(Natural Language Processing)の分野で深層学習 (Deep Learning)に関する多くの技術が提案されている。例えば、Seq2Seq(sequence-to-sequence)等の機械学習モデルを用いて、文章から文章の要約を生成する技術が提案されている。
【先行技術文献】
【非特許文献】
【0003】
【文献】”Neural Machine Translation by Jointly Learning to Align and Translate”, Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio, Proceedings of the International Conference on Learning Representations 2015,[online],[令和2年3月18日検索],インターネット<URL:https://arxiv.org/abs/1409.0473>
【文献】”Effective Approaches to Attention-based Neural Machine Translation ”,Thang Luong, Hieu Pham, Christopher D. Manning, Proceedings of the Conference on Empirical Methods in Natural Language Processing,[online],[令和2年3月18日検索],インターネット<URL:https://www.aclweb.org/anthology/D15-1166/>
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記の従来技術では、適切なモデルを学習しているとは言えない場合がある。例えば、上記の従来技術では、単語単位で正しい出力ができるようSeq2Seq等の機械学習モデルを学習しているが、このようなSeq2Seq等の機械学習モデルは文全体としての良さを評価して学習していない。このため、例えば、利用者が興味を有し得る要約を生成しているとは言えない場合がある。
【0005】
そこで、本開示では、適切なモデルを学習することができる情報処理装置、情報処理方法及び情報処理プログラムを提案する。
【課題を解決するための手段】
【0006】
本願に係る情報処理装置は、コンテンツから当該コンテンツの内容を示す示唆情報を生成する生成モデルを用いて、所定のコンテンツから示唆情報を生成する生成部と、同一の対象コンテンツの内容を示す複数の示唆情報のうちいずれが好ましいかを学習した評価モデルを用いて、前記生成部により生成された示唆情報を評価する評価部と、前記評価部による評価結果に基づいて、前記生成モデルを強化学習する強化学習部と、を有することを特徴とする。
【発明の効果】
【0007】
実施形態の一態様によれば、適切なモデルを学習することができるといった効果を奏する。
【図面の簡単な説明】
【0008】
【
図1】
図1は、実施形態に係る情報処理方法の概要を示す説明図である。
【
図2】
図2は、実施形態に係る情報処理装置の構成例を示す図である。
【
図3】
図3は、実施形態に係る見出し情報記憶部の一例を示す図である。
【
図4】
図4は、実施形態に係る情報処理手順を示すフローチャートである。
【
図5】
図5は、実施形態に係る情報処理手順を示すフローチャートである。
【
図6】
図6は、プログラムを実行するコンピュータのハードウェア構成の一例を示す図である。
【発明を実施するための形態】
【0009】
以下に、本願に係る情報処理装置、情報処理方法及び情報処理プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る情報処理装置、情報処理方法及び情報処理プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略する。
【0010】
〔1.情報処理方法の概要〕
まず、
図1を参照し、実施形態に係る情報処理装置が行う情報処理方法の概要について説明する。
図1は、実施形態に係る情報処理方法の概要を示す説明図である。
図1に示す例では、情報処理装置100は、クラウドソーシングを用いて、同一の対象コンテンツ(例えば、ニュース記事等)の内容を示す複数の見出しのうちいずれが好ましいかを評価する評価モデルを学習する(第1段階)。続いて、情報処理装置100は、第1段階で学習済みの評価モデルを用いて、コンテンツから当該コンテンツの内容を示す見出しを生成する生成モデルを用いて生成されたコンテンツの見出しを評価する。続いて、情報処理装置100は、評価モデルから出力された評価結果を報酬として、生成モデルを強化学習する(第2段階)。
【0011】
ここで、近年、文章を生成する文章生成モデルの精度が高くなっており、文章生成モデルの精度を向上させることは容易ではなくなっている。例えば、近年、コンテンツから見出しを生成する見出し生成モデルの中には、人手によって生成される見出しと見分けがつかないような見出しを生成できるものが存在する。
【0012】
このような文章生成モデルの一例として、Seq2Seqがある。Seq2Seqは単語単位で正しい出力ができるよう学習しているが、文全体としての良さを明示的に評価して学習していない。このため、例えば、利用者が興味を有し得る要約を生成しているとは言えない場合がある。
【0013】
そこで、本願に係る情報処理装置100は、コンテンツから当該コンテンツの内容を示す見出しを生成する生成モデルを用いて、所定のコンテンツから見出しを生成する。また、情報処理装置100は、同一の対象コンテンツの内容を示す複数の見出しのうちいずれが好ましいかを学習した評価モデルを用いて、生成モデルを用いて生成された見出しを評価する。また、情報処理装置100は、評価モデルから出力された評価結果に基づいて、生成モデルを強化学習する。
【0014】
これにより、情報処理装置100は、文全体としての良さを評価する評価モデルをあらかじめ学習しておき、その出力を強化学習で取り込むことによって、見出し生成の生成モデルの質を向上させることができる。したがって、情報処理装置100は、適切なモデルを学習することができる。
【0015】
図1の説明に戻る。
図1に示す第1段階では、まず、情報処理装置100は、同一のコンテンツの内容を要約した見出しであって、異なる2種類の方法で生成された見出しを取得する。例えば、情報処理装置100は、コンテンツの見出しを生成する編集者(以下、生成者ともいう)によって生成されたコンテンツC1の見出しAを取得する。なお、以下では、生成者によって人手で生成された見出しのことを人手見出しと記載する場合がある。また、情報処理装置100は、Seq2Seq等の公知の技術を用いて生成されたモデルであって、コンテンツから当該コンテンツの見出しを生成する基準生成モデルを用いて生成されたコンテンツC1の見出しBを取得する。ここで、基準生成モデルは、後述する強化学習の対象である生成モデルに対する評価の基準となるモデルである。なお、以下では、基準生成モデルを用いて生成された見出しのことを基準見出しと記載する場合がある。
【0016】
続いて、情報処理装置100は、生成者によって生成された見出しAと基準生成モデルを用いて生成された見出しBのうちいずれが好ましいかを示す評価結果をクラウドソージングによって取得する(ステップS1)。例えば、情報処理装置100は、クラウドワーカー10人に対して見出しAと見出しBのペアを提示する。続いて、情報処理装置100は、見出しAと見出しBのどちらの見出しが好ましいか(例えば、見出しAと見出しBのどちらをクリックしたくなるか)を示す評価結果をそれぞれのクラウドワーカーから取得する。続いて、情報処理装置100は、それぞれのクラウドワーカーから取得した評価結果に基づいて、見出しAの得票数(例えば、8人)と見出しBの得票数(例えば、2人)を算出する。また、情報処理装置100は、算出した見出しAの得票数と見出しBの得票数を比較して、得票数が多い方の見出しが好ましいという評価結果を取得する。
【0017】
同様にして、情報処理装置100は、見出しAと見出しBのペアの他にも、多数の同一の対象コンテンツについて、人手見出しと基準見出しの多数のペアを用意する。続いて、情報処理装置100は、人手見出しと基準見出しの多数のペアそれぞれについて、いずれが好ましいかを示す評価結果をクラウドソージングによって取得する。
【0018】
続いて、情報処理装置100は、クラウドソージングによって取得された多数のペアそれぞれに対する評価結果に基づいて、同一の対象コンテンツの内容を示す複数の見出しのうちいずれが好ましいかを評価する評価モデルを学習する(ステップS2)。例えば、情報処理装置100は、評価結果が好ましくない方(例えば、得票数が少ない方)の見出しと評価結果が好ましい方(例えば、得票数が多い方)の見出しのペアを入力情報として評価モデルに入力した場合、評価結果が好ましい方(例えば、得票数が多い方)の見出しを示す情報を出力情報として出力するよう評価モデルを学習する。あるいは、情報処理装置100は、評価結果が好ましくない方(例えば、得票数が少ない方)の見出しと評価結果が好ましい方(例えば、得票数が多い方)の見出しのペアを入力情報として評価モデルに入力した場合、それぞれの見出しについて得票数に基づくスコアを出力情報として出力するよう評価モデルを学習してもよい。
【0019】
続いて、
図1に示す第2段階では、情報処理装置100は、第1段階で学習済みの評価モデルを用いて、コンテンツから当該コンテンツの内容を示す見出しを生成する生成モデルを用いて生成された見出しを評価する(ステップS3)。例えば、情報処理装置100は、生成モデルを用いて、コンテンツC2から見出しDを生成する。なお、以下では、生成モデルを用いて生成された見出しのことを生成見出しと記載する場合がある。また、情報処理装置100は、生成モデルに対する評価の基準となる基準生成モデルを用いて、コンテンツC2から見出しEを生成する。続いて、情報処理装置100は、生成モデルを用いて生成された見出しDと基準生成モデルを用いて生成された見出しEのペアを取得すると、取得した見出しDと見出しEのペアを入力情報として評価モデルに入力する。続いて、情報処理装置100は、見出しDの好ましさを示す評価値と見出しEの好ましさを示す評価値を評価モデルの出力情報として出力する。
図1では、評価モデルは、見出しD評価値を「30点」、見出しEの評価値を「80点」と評価する。そして、情報処理装置100は、見出しDの評価値を示す「30点」と見出しEの評価値を示す「80点」を評価モデルの出力情報として出力する。
【0020】
続いて、情報処理装置100は、評価モデルから出力された評価結果を報酬として、生成モデルを強化学習する(ステップS4)。例えば、情報処理装置100は、生成モデルを用いて生成された生成見出しの評価値の方が高い(つまり、生成見出しの方が基準見出しより好ましいと評価された)場合には、正の報酬を設定して生成モデルを強化学習する。一方、情報処理装置100は、基準見出しの評価値の方が高い(つまり、基準見出しの方が生成見出しより好ましいと評価された)場合には、負の報酬を設定して生成モデルを強化学習する。
図1では、情報処理装置100は、生成モデルを用いて生成された見出しEの評価値の方が高い(つまり、見出しEの方が見出しDより好ましいと評価された)ので、正の報酬を設定して生成モデルを強化学習する。
【0021】
同様にして、情報処理装置100は、多数の同一の対象コンテンツについて、基準見出しと生成見出しのペアを用意する。続いて、情報処理装置100は、基準見出しと生成見出しの多数のペアそれぞれを入力情報として評価モデルに入力する。続いて、情報処理装置100は、基準見出しと生成見出しの多数のペアそれぞれについていずれが好ましいかを示す評価結果を評価モデルの出力情報として出力する。続いて、情報処理装置100は、評価モデルから出力された評価結果それぞれを報酬として、多数のペアそれぞれについて生成モデルを強化学習する。
【0022】
また、
図1での図示は省略するが、情報処理装置100は、生成モデルを強化学習すると、強化学習された生成モデルを用いて、所定のコンテンツから見出しを生成する。続いて、情報処理装置100は、強化学習された生成モデルを用いて見出しを生成すると、生成した見出しを出力する。
【0023】
なお、
図1では、コンテンツがニュース記事等のテキストコンテンツであり、当該コンテンツの内容を示す示唆情報が見出しである例について説明したが、これに限られない。具体的には、コンテンツと示唆情報とは、コンテンツと当該コンテンツの内容や当該コンテンツのコンテキストを示唆するものであればなんでもよい。例えば、コンテンツが音楽コンテンツであり、当該コンテンツの内容を示す示唆情報が楽曲のサンプルであってもよい。また、コンテンツが画像コンテンツ(動画像または静止画像)であり、当該コンテンツの内容を示す示唆情報がサムネイルであってもよい。
【0024】
〔2.情報処理装置の構成例〕
次に、
図2を用いて、実施形態に係る情報処理装置100の構成について説明する。
図2は、実施形態に係る情報処理装置100の構成例を示す図である。
図2に示すように、情報処理装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、情報処理装置100は、情報処理装置100の管理者等から各種操作を受け付ける入力部(例えば、キーボードやマウス等)や、各種情報を表示させるための表示部(例えば、液晶ディスプレイ等)を有してもよい。
【0025】
(通信部110)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、ネットワークと有線または無線で接続され、例えば、クラウドワーカーや生成者の端末装置との間で情報の送受信を行う。
【0026】
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、
図3に示すように、見出し情報記憶部121を有する。
【0027】
(見出し情報記憶部121)
見出し情報記憶部121は、見出しに関する各種の情報を記憶する。
図3に、実施形態に係る見出し情報記憶部の一例を示す。
図3に示す例では、見出し情報記憶部121は、「見出しID」、「見出し」、「コンテンツURL」といった項目を有する。
【0028】
「見出しID」は、見出しを識別する識別情報を示す。「見出し」は、コンテンツの見出しを示す。「コンテンツURL」は、見出しの元となるコンテンツのURLを示す。
【0029】
(制御部130)
図2の説明に戻って、制御部130は、コントローラ(controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)、また多大な計算パワーを必要とすることからGPU(Graphics Processing Unit)等によって、情報処理装置100内部の記憶装置に記憶されている各種プログラム(情報処理プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
【0030】
図2に示すように、制御部130は、取得部131と、学習部132と、生成部133と、評価学習部134と、評価部135と、強化学習部136を有し、以下に説明する情報処理の作用を実現または実行する。なお、制御部130の内部構成は、
図2に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
【0031】
(取得部131)
取得部131は、生成者によって生成されたコンテンツの見出しを取得する。例えば、取得部131は、生成者によって利用される端末装置(図示略)から生成者によって生成された見出しを取得する。取得部131は、見出し情報を取得すると、取得した見出し情報を見出し情報記憶部121に格納する。
【0032】
また、取得部131は、評価の基準となる基準生成モデルを用いて生成された基準示唆情報と生成者によって生成された人手示唆情報のうちいずれが好ましいかを示す評価結果をクラウドソージングによって取得する。具体的には、取得部131は、評価の基準となる基準生成モデルを用いて生成されたコンテンツの基準見出しと生成者によって生成されたコンテンツの人手見出しのうちいずれが好ましいかを示す評価結果をクラウドソージングによって取得する。
【0033】
例えば、取得部131は、複数のクラウドワーカー(例えば、10人のクラウドワーカー)に対して基準見出しと人手見出しのペアを提示する。続いて、取得部131は、基準見出しと人手見出しのどちらの見出しが好ましいか(例えば、基準見出しと人手見出しのどちらをクリックしたくなるか)を示す評価結果をそれぞれのクラウドワーカーから取得する。続いて、取得部131は、それぞれのクラウドワーカーから取得した評価結果に基づいて、基準見出しの得票数(例えば、8人)と人手見出しの得票数(例えば、2人)を算出する。また、取得部131は、算出した基準見出しの得票数と人手見出しの得票数を比較して、得票数が多い方の見出しが好ましいという評価結果を取得する。
【0034】
同様にして、取得部131は、多数のコンテンツについて、人手見出しと基準見出しのペアを用意する。続いて、取得部131は、多数の見出しのペアそれぞれについていずれが好ましいかを示す評価結果をクラウドソージングによって取得する。
【0035】
また、取得部131は、クラウドワーカーの属性を限定して、多数の見出しのペアそれぞれについていずれが好ましいかを示す評価結果をクラウドソージングによって取得してもよい。評価学習部134は、取得部131が取得した研究者向け、女性向け、男性向け、中年向け、若年層向け、…など利用者の属性に応じた好みを反映した評価結果に基づいて評価モデルを学習する。これにより、強化学習部136は、研究者向け、女性向け、男性向け、中年向け、若年層向け、…など利用者の属性に応じた生成モデルを強化学習することができる。
【0036】
また、取得部131は、クラウドソージングを行う利用者の属性をばらけさせることで一般化を図ってもよい。具体的には、取得部131は、特定の属性に偏らないように、幅広い属性からバランスよくクラウドワーカーを抽出して、抽出されたクラウドワーカーから多数の見出しのペアそれぞれについていずれが好ましいかを示す評価結果を取得する。これにより、強化学習部136は、一般的な利用者向けの生成モデルを強化学習することができる。
【0037】
(学習部132)
学習部132は、コンテンツから当該コンテンツの内容を示す示唆情報を生成する生成モデルを生成する。具体的には、学習部132は、Seq2Seq等の公知の技術を用いて、ニュース記事等であるコンテンツが入力情報として生成モデルに入力された場合に、当該コンテンツの見出しを出力情報として出力するよう生成モデルを学習する。
【0038】
また、学習部132は、評価部135による評価の基準となる基準生成モデルを生成する。例えば、学習部132は、生成モデルと同様に基準生成モデルを学習する。
【0039】
(生成部133)
生成部133は、コンテンツから当該コンテンツの内容を示す示唆情報を生成する生成モデルを用いて、所定のコンテンツから示唆情報を生成する。具体的には、生成部133は、学習部132が学習した生成モデルを用いて、所定のコンテンツから示唆情報を生成する。また、生成部133は、学習部132が学習した基準生成モデルを用いて、所定のコンテンツから基準示唆情報を生成する。例えば、生成部133は、所定のコンテンツの内容を要約した見出しである示唆情報を生成する。
【0040】
また、生成部133は、利用者によって示唆情報が選択された場合に、所定のコンテンツに遷移可能な示唆情報を生成する。例えば、生成部133は、利用者によって見出しが選択された場合に、見出しに対応する所定のコンテンツに遷移可能なリンクが埋め込まれた示唆情報を生成する。
【0041】
(評価学習部134)
評価学習部134は、取得部131により取得された情報に基づいて、評価モデルを学習する。具体的には、評価学習部134は、取得部131により取得された評価結果が好ましくない方の示唆情報と比べて、取得部131により取得された評価結果が好ましい方の示唆情報をより高く評価するように評価モデルを学習する。
【0042】
例えば、評価学習部134は、取得部131により取得された多数の見出しのペアそれぞれに対する評価結果に基づいて、同一の対象コンテンツの内容を示す複数の見出しのうちいずれが好ましいかを評価する評価モデルを学習する。例えば、評価学習部134は、評価結果が好ましくない方(例えば、得票数が少ない方)の見出しと評価結果が好ましい方(例えば、得票数が多い方)の見出しのペアを入力情報として評価モデルに入力した場合、評価結果が好ましい方(例えば、得票数が多い方)の見出しを示す情報を出力情報として出力するよう評価モデルを学習する。
【0043】
あるいは、評価学習部134は、評価結果が好ましくない方(例えば、得票数が少ない方)の見出しと評価結果が好ましい方(例えば、得票数が多い方)の見出しのペアを入力情報として評価モデルに入力した場合、それぞれの見出しの好ましさを示すスコア(例えば、得票数に比例するスコア)を出力情報として出力するよう評価モデルを学習してもよい。
【0044】
(評価部135)
評価部135は、同一の対象コンテンツの内容を示す複数の示唆情報のうちいずれが好ましいかを学習した評価モデルを用いて、生成部133により生成された示唆情報を評価する。具体的には、評価部135は、評価の基準となる基準生成モデルを用いて生成された基準示唆情報と、生成者によって生成された人手示唆情報のうちいずれが好ましいかを学習した評価モデルを用いて、生成部133により生成された示唆情報を評価する。より具体的には、評価部135は、評価の基準となる基準生成モデルを用いて生成された基準示唆情報と、生成部133により生成された示唆情報のうちいずれが好ましいかを評価する。
【0045】
例えば、評価部135は、評価学習部134が学習した評価モデルを用いて、生成モデルを用いて生成された見出しを評価する。例えば、評価部135は、生成部133により生成モデルを用いて生成された見出しと、基準生成モデルを用いて生成された基準見出しのペアを入力情報として評価モデルに入力して、それぞれの見出しの好ましさを示す評価値をそれぞれ出力情報として出力する。あるいは、評価部135は、生成部133により生成モデルを用いて生成された見出しと、基準生成モデルを用いて生成された基準見出しのペアを入力情報として評価モデルに入力して、生成モデルを用いて生成された見出しと基準見出しのうち好ましいと評価した方の見出しを示す情報(例えば、見出しそのもの、または見出しを識別する識別情報)を出力情報として出力してもよい。
【0046】
(強化学習部136)
強化学習部136は、評価部135による評価結果に基づいて、生成モデルを強化学習する。具体的には、強化学習部136は、生成部133により生成された示唆情報に対する評価部135による評価結果が高いほど、高い報酬を設定して、生成モデルを強化学習する。例えば、強化学習部136は、生成部133により生成された示唆情報の方が基準示唆情報よりも好ましいと評価部135により評価された場合は、より高い報酬を設定して、生成モデルを強化学習する。
【0047】
例えば、強化学習部136は、評価部135による評価結果を報酬として、生成モデルを強化学習する。例えば、強化学習部136は、評価部135による評価の結果、生成モデルを用いて生成された生成見出しの評価値の方が高い(つまり、生成見出しの方が基準見出しより好ましいと評価された)場合には、正の報酬を設定して生成モデルを強化学習する。例えば、強化学習部136は、生成見出しの評価値と基準見出しの評価値との差分の大きさに比例する正の報酬を設定して生成モデルを強化学習する。一方、強化学習部136は、評価部135による評価の結果、基準見出しの評価値の方が高い(つまり、基準見出しの方が生成見出しより好ましいと評価された)場合には、負の報酬を設定して生成モデルを強化学習する。例えば、強化学習部136は、基準見出しの評価値と基準見出しの評価値との差分の大きさに比例する負の報酬を設定して生成モデルを強化学習する。
【0048】
(出力部137)
出力部137は、強化学習部136によって強化学習された生成モデルを用いて、所定のコンテンツから示唆情報を生成する。例えば、出力部137は、強化学習部136によって強化学習された生成モデルを用いて、所定のコンテンツから所定のコンテンツの内容を要約した見出しである示唆情報を生成する。続いて、出力部137は、示唆情報を生成すると、生成した示唆情報を出力する。例えば、出力部137は、強化学習部136によって強化学習された生成モデルを用いて、所定のコンテンツから所定のコンテンツの内容を要約した見出しである示唆情報を生成すると、生成した見出しを出力する。
【0049】
〔3.情報処理の手順〕
次に、
図4を用いて、実施形態に係る情報処理の手順について説明する。
図4は、実施形態に係る情報処理手順を示すフローチャートである。
図4に示す例では、情報処理装置100は、生成者によって生成されたコンテンツの見出しを取得する(ステップS101)。また、情報処理装置100は、生成者によって生成された見出しに対応するコンテンツと同一のコンテンツの見出しを基準生成モデルによって生成する(ステップS102)。続いて、情報処理装置100は、生成者によって生成された見出しと基準生成モデルによって生成された見出しのいずれが好ましいかをクラウドソーシングによって取得する(ステップS103)。
【0050】
続いて、情報処理装置100は、クラウドソーシングによって取得した情報に基づいて評価モデルを学習する(ステップS104)。例えば、情報処理装置100は、生成者によって生成された見出しと基準生成モデルによって生成された見出しの両方を評価モデルに入力した場合、生成者によって生成された見出しと基準生成モデルによって生成された見出しのいずれが好ましいかを出力するよう評価学習モデルを学習する。
【0051】
次に、
図5を用いて、実施形態に係る情報処理の手順について説明する。
図5は、実施形態に係る情報処理手順を示すフローチャートである。
図5に示す例では、情報処理装置100は、基準生成モデルと生成モデルのそれぞれによって同一の対象コンテンツの見出しを生成する(ステップS201)。続いて、情報処理装置100は、基準生成モデルによって生成された見出しと生成モデルによって生成された見出しのいずれが好ましいかを評価モデルによって評価する(ステップS202)。
【0052】
続いて、情報処理装置100は、評価モデルの評価結果を報酬として生成モデルを強化学習する(ステップS203)。例えば、情報処理装置100は、評価モデルによる評価の結果、基準生成モデルによって生成された基準見出しの評価値よりも、生成モデルによって生成された生成見出しの評価値の方が高い(つまり、基準見出しよりも生成見出しの方が好ましいと評価された)場合には、正の報酬を設定して生成モデルを強化学習する。また、情報処理装置100は、評価モデルによる評価の結果、基準生成モデルによって生成された基準見出しの評価値の方が、生成モデルによって生成された生成見出しの評価値よりも高い(つまり、基準見出しの方が生成見出しよりも好ましいと評価された)場合には、負の報酬を設定して生成モデルを強化学習する。
【0053】
〔4.効果〕
上述してきたように、実施形態に係る情報処理装置100は、生成部133と評価部135と強化学習部136を有する。生成部133は、コンテンツから当該コンテンツの内容を示す示唆情報を生成する生成モデルを用いて、所定のコンテンツから示唆情報を生成する。評価部135は、同一の対象コンテンツの内容を示す複数の示唆情報のうちいずれが好ましいかを学習した評価モデルを用いて、生成部133により生成された示唆情報を評価する。強化学習部136は、評価部135による評価結果に基づいて、生成モデルを強化学習する。
【0054】
これにより、情報処理装置100は、文全体としての良さを評価する評価モデルをあらかじめ学習しておき、その出力を強化学習で取り込むことによって、見出し生成の生成モデルの質を向上させることができる。したがって、情報処理装置100は、適切なモデルを学習することができる。
【0055】
また、生成部133は、所定のコンテンツの内容を要約した見出しである示唆情報を生成する。
【0056】
これにより、情報処理装置100は、コンテンツの内容を要約した見出しを生成する生成モデルの質を向上させることができる。
【0057】
また、生成部133は、利用者によって示唆情報が選択された場合に、所定のコンテンツに遷移可能な示唆情報を生成する。
【0058】
これにより、情報処理装置100は、示唆情報に興味を示した利用者が、示唆情報に対応するコンテンツを閲覧する利便性を向上させることができる。
【0059】
また、評価部135は、評価の基準となる基準生成モデルを用いて生成された基準示唆情報と、生成者によって生成された人手示唆情報のうちいずれが好ましいかを学習した評価モデルを用いて、生成部133により生成された示唆情報を評価する。
【0060】
これにより、情報処理装置100は、人手によって生成される示唆情報と同程度かそれ以上に好ましい示唆情報を生成可能にする。
【0061】
また、情報処理装置100は、取得部131と評価学習部134とをさらに有する。取得部131は、基準示唆情報と人手示唆情報のうちいずれが好ましいかを示す評価結果をクラウドソージングによって取得する。評価学習部134は、取得部131により取得された評価結果に基づいて、評価モデルを学習する。また、評価学習部134は、取得部131により取得された評価結果が好ましくない方の示唆情報と比べて、取得部131により取得された評価結果が好ましい方の示唆情報をより高く評価するように評価モデルを学習する。
【0062】
これにより、情報処理装置100は、クラウドワーカーによる評価を考慮した学習を評価モデルに行わせることができる。つまり、情報処理装置100は、クラウドワーカーによる評価を通じて、見出し等の文全体としての良さに対する評価を学習することができる。情報処理装置100は、文全体としての良さを評価する評価モデルを学習することができる。
【0063】
また、強化学習部136は、生成部133により生成された示唆情報に対する評価部135による評価結果が高いほど、高い報酬を設定して、生成モデルを強化学習する。
また、評価部135は、評価の基準となる基準生成モデルを用いて生成された基準示唆情報と、生成部133により生成された示唆情報のうちいずれが好ましいかを評価する。強化学習部136は、生成部133により生成された示唆情報の方が基準示唆情報よりも好ましいと評価部135により評価された場合は、より高い報酬を設定して、生成モデルを強化学習する。
【0064】
これにより、情報処理装置100は、利用者による評価を考慮した示唆情報を生成するよう生成モデルを学習させることができる。
【0065】
〔5.ハードウェア構成〕
また、上述してきた実施形態に係る情報処理装置100は、例えば
図6に示すような構成のコンピュータ1000によって実現される。
図6は、情報処理装置100の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を備える。
【0066】
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
【0067】
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、所定の通信網を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを所定の通信網を介して他の機器へ送信する。
【0068】
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを入出力インターフェイス1600を介して出力装置へ出力する。なお、CPU1100の代わりに、MPU(Micro Processing Unit)、また多大な計算パワーを必要とすることからGPU(Graphics Processing Unit)を用いてもよい。
【0069】
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
【0070】
例えば、コンピュータ1000が情報処理装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置から所定の通信網を介してこれらのプログラムを取得してもよい。
【0071】
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0072】
〔6.その他〕
また、上記実施形態及び変形例において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0073】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0074】
また、上述してきた実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【0075】
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、生成部は、生成手段や生成回路に読み替えることができる。
【符号の説明】
【0076】
1 情報処理システム
100 情報処理装置
110 通信部
120 記憶部
121 見出し情報記憶部
130 制御部
131 取得部
132 学習部
133 生成部
134 評価学習部
135 評価部
136 強化学習部
137 出力部