IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤフー株式会社の特許一覧

特開2024-166542情報処理装置、情報処理方法、及び情報処理プログラム
<>
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図1
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図2
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図3
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図4
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図5
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図6
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図7
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図8
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図9
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図10
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図11
  • 特開-情報処理装置、情報処理方法、及び情報処理プログラム 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024166542
(43)【公開日】2024-11-29
(54)【発明の名称】情報処理装置、情報処理方法、及び情報処理プログラム
(51)【国際特許分類】
   G06F 40/279 20200101AFI20241122BHJP
   G06F 40/205 20200101ALI20241122BHJP
【FI】
G06F40/279
G06F40/205
【審査請求】未請求
【請求項の数】5
【出願形態】OL
(21)【出願番号】P 2023082705
(22)【出願日】2023-05-19
(71)【出願人】
【識別番号】500257300
【氏名又は名称】LINEヤフー株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】山根 永暉
(72)【発明者】
【氏名】鷺 空汰
(72)【発明者】
【氏名】有賀 優太
(72)【発明者】
【氏名】高田 篤志
(72)【発明者】
【氏名】大谷 悦志
(57)【要約】
【課題】ニュース記事の本文とタイトルの一致率を算出し、利用者に対して適切な情報を提供することができる情報処理装置、情報処理方法、及び情報処理プログラムを提供すること。
【解決手段】本開示に係る情報処理装置は、ニュース記事の本文に基づいて、ニュース記事の要約を生成する生成部と、生成部が生成したニュース記事の要約と、当該のニュース記事のタイトルと、に基づいて、ニュース記事の本文と、ニュース記事のタイトルとの一致の程度を示す一致率を算出する算出部と、利用者端末に各種の情報を提供する提供部と、を備え、提供部は、ニュース記事のタイトルと共に、当該のニュース記事のタイトルと、ニュース記事の要約に基づいて、算出部が算出した一致率を利用者端末に提供する。
【選択図】図6
【特許請求の範囲】
【請求項1】
ニュース記事の本文に基づいて、ニュース記事の要約を生成する生成部と、
前記生成部が生成したニュース記事の要約と、当該のニュース記事のタイトルと、に基づいて、ニュース記事の本文と、ニュース記事のタイトルとの一致の程度を示す一致率を算出する算出部と、
利用者端末に各種の情報を提供する提供部と、を備え、
前記提供部は、ニュース記事のタイトルと共に、当該のニュース記事のタイトルと、ニュース記事の要約に基づいて、前記算出部が算出した前記一致率を利用者端末に提供する、
情報処理装置。
【請求項2】
前記算出部が算出した前記一致率に基づいて、利用者に提供する通知情報を決定する決定部と、をさらに備え、
前記提供部は、前記決定部が決定した通知情報を利用者端末に提供する、
請求項1に記載の情報処理装置。
【請求項3】
前記算出部は、ニュース記事の要約と、当該のニュース記事のタイトルの一致率を、ニュース記事の要約と当該のニュース記事のタイトルの最長共通部分列に基づいて算出する、
請求項1または2に記載の情報処理装置。
【請求項4】
ニュース記事の本文に基づいて、ニュース記事の要約を生成するステップと、
生成したニュース記事の要約と、当該のニュース記事のタイトルと、に基づいて、ニュース記事の本文と、ニュース記事のタイトルとの一致の程度を示す一致率を算出するステップと、
利用者端末に各種の情報を提供するステップと、を含み、
前記提供するステップにおいては、ニュース記事のタイトルと共に、当該のニュース記事のタイトルと、ニュース記事の要約に基づいて、前記算出するステップにおいて算出した前記一致率を利用者端末に提供する、
を含む、情報処理方法。
【請求項5】
ニュース記事の本文に基づいて、ニュース記事の要約を生成するステップと、
生成したニュース記事の要約と、当該のニュース記事のタイトルと、に基づいて、ニュース記事の本文と、ニュース記事のタイトルとの一致の程度を示す一致率を算出するステップと、
利用者端末に各種の情報を提供するステップと、を含み、
前記提供するステップにおいては、ニュース記事のタイトルと共に、当該のニュース記事のタイトルと、ニュース記事の要約に基づいて、前記算出するステップにおいて算出した前記一致率を利用者端末に提供すること、
をコンピュータに実行させる、情報処理プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報処理装置、情報処理方法、及び情報処理プログラムに関する。
【背景技術】
【0002】
ニュース記事の本文の内容を正確にタイトルが表現していないことがあった。そのため、ニュース記事のタイトルを確認した後に、ニュース記事の本文を読んだ利用者が、タイトルの表現によって抱いた期待と異なるニュース記事であったと感じることがあった。
【0003】
例えば、下記の特許文献1には、配信された複数のニュースに対して、同一性判定を実行すると共に、同一性判定の精度を向上させることができるニュース情報分析装置が開示されている。
【先行技術文献】
【特許文献】
【0004】
【特許文献1】特開2012-99001号公報
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記の特許文献1に記載のニュース情報分析装置は、ニュース情報の同一性判定を実行することはできるものの、ニュース情報のタイトルとニュース記事の本文との一致率を算出し、利用者に対して適切な情報を提供することができなかった。
【0006】
本開示は上記課題を鑑み、ニュース記事の本文とタイトルの一致率を算出し、利用者に対して適切な情報を提供することができる情報処理装置、情報処理方法、及び情報処理プログラムを提供することを目的とする。
【課題を解決するための手段】
【0007】
上述した課題を解決し、目的を達成するために、本開示に係る情報処理装置は、ニュース記事の本文に基づいて、ニュース記事の要約を生成する生成部と、前記生成部が生成したニュース記事の要約と、当該のニュース記事のタイトルと、に基づいて、ニュース記事の本文と、ニュース記事のタイトルとの一致の程度を示す一致率を算出する算出部と、利用者端末に各種の情報を提供する提供部と、を備え、前記提供部は、ニュース記事のタイトルと共に、当該のニュース記事のタイトルと、ニュース記事の要約に基づいて、前記算出部が算出した前記一致率を利用者端末に提供する。
【発明の効果】
【0008】
本開示によれば、ニュース記事の本文とタイトルの一致率を算出し、利用者に対して適切な情報を提供することができる情報処理装置、情報処理方法、及び情報処理プログラムを提供することができる。
【図面の簡単な説明】
【0009】
図1図1は、実施形態に係る情報処理の第一の例を示す図である。
図2図2は、実施形態に係る情報処理において利用者端末に提供される情報の一例を示す図である。
図3図3は、実施形態に係る情報処理の実現手段の一例を説明する図である。
図4図4は、実施形態に係る情報処理の第二の例を示す図である。
図5図5は、実施形態に係る情報処理システムの構成例を示す図である。
図6図6は、実施形態に係る情報処理装置の構成例を示す図である。
図7図7は、実施形態に係る情報処理装置のニュース記事記憶部に記憶される情報の一例を示す図である。
図8図8は、実施形態に係る情報処理装置の要約モデル記憶部に記憶される情報の一例を示す図である。
図9図9は、実施形態に係る情報処理装置の通知情報記憶部に記憶される情報の一例を示す図である。
図10図10は、実施形態に係る利用者端末の構成例を示す図である。
図11図11は、実施形態に係る情報処理の一例を示すフローチャートである。
図12図12は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【発明を実施するための形態】
【0010】
以下に、本開示に係る情報処理装置、情報処理方法、及び情報処理プログラムを実施するための形態(以下、「実施形態」と記載する。)について図面を参照しつつ詳細に説明する。なお、この実施形態により本開示に係る情報処理装置、情報処理方法、及び情報処理プログラムが限定されるものではない。
【0011】
(実施形態)
〔1.実施形態に係る情報処理〕
〔1-1.実施形態に係る情報処理の一例〕
まず、図1を用いて、実施形態に係る情報処理の一例について説明する。図1は、実施形態に係る情報処理の一例を示す図である。図1では、実施形態に係る情報処理が情報処理装置100、利用者端末200により実行される例を示す。以下、実施形態に係る情報処理についてステップごとに順を追って説明する。
【0012】
まず、情報処理装置100は、ニュース記事の要約を生成する(ステップS1)。例えば、図1に示すように、情報処理装置100は、ニュース記事Aの本文のテキストデータを、要約を生成する要約モデルに入力することにより、ニュース記事Aの要約Aを生成する。具体的には、情報処理装置100は、T5(Text-to-Text Transfer Transformer)などの抽象型要約モデルを用いることによって、ニュース記事の本文のテキストデータから、ニュース記事の本文の要約を生成してよい。なお、T5には、日本語の事前学習済みモデルを用いてよく、文章の要約と、文章の本文を学習用データとして用いることにより、要約タスクに対してファインチューニングされたものを用いてよい。また、Pytorchや、Hugging Faceを用いて開発環境を整えてよい。
【0013】
次に、情報処理装置100は、ニュース記事の要約と、ニュース記事のタイトルと、に基づいて、一致率を算出する(ステップS2)。すなわち、情報処理装置100は、ステップS1において生成したニュース記事の要約と、ニュース記事のタイトルに基づいて、一致率を算出する。例えば、図1に示すように、ニュース記事の要約Aと、タイトルAと、に基づいて、一致率Aを算出する。具体的には、情報処理装置100は、ニュース記事の要約と、ニュース記事のタイトルに基づいて、下記の式(1)、(2)、(3)に基づいて、Rouge-Lを算出する。
【0014】
【数1】
【数2】
【数3】
【0015】
なお、式(1)において、Xは、ニュース記事の本文の要約を示し、Yは、ニュース記事のタイトルを示す。また、nは、ニュース記事の本文の要約の長さを示し、mは、ニュース記事のタイトルの長さを示す。また、LCS(X,Y)は、XとYの最長共通部分列を示し、βは、∂Flcs/∂Rlcs=∂Flcs/∂PlcsであるときのPlcs/Rlcsである。また、式(3)に示すFlcsが、Rouge-Lである。
【0016】
次に、情報処理装置100は、式(3)によって算出されたRouge-Lを、次の式(4)に入力することにより、一致率を算出する。
【0017】
【数4】
【0018】
なお、式(4)において、xはRouge-Lを示し、scoreは一致率を示す。これにより、Rouge-Lを非線形変換したものを一致率とすることができる。そのため、要約モデルの出力に起因する一致率の偏りを防ぐことができる。
【0019】
このように、情報処理装置100は、Rouge-Lを用いて、要約モデルが生成した要約と、正解の要約(本ケースにおいては、ニュース記事のタイトル)とにおける最長共通部分列(LCS:Longest Common Subsequence)に基づいて、一致率を算出する。
【0020】
次に、情報処理装置100は、ニュース記事のタイトルと共に、一致率を利用者端末200に提供する(ステップS3)。例えば、情報処理装置100は、図2に示すような態様により、ニュース記事のタイトルと共に、当該のニュース記事のタイトルとニュース記事の本文の要約との一致率を利用者端末200に提供する。図2は、実施形態に係る情報処理において利用者端末に提供される情報の一例を示す図である。図2に示すように、情報処理装置100は、利用者端末200にニュース記事のタイトルの隣に、ステップS2において算出した一致率の算出結果を表示させる。なお、図2においては、タイトルAの一致率が49.2%、タイトルBの一致率が88.9%、タイトルCの一致率が67.9%、タイトルDの一致率が70.9%、タイトルEの一致率が72.5%、タイトルFの一致率が88.3%、タイトルGの一致率が64.8%であると算出されたことが一例として示されている。このように、情報処理装置100は、ニュース記事のタイトルと共に、ニュース記事の本文と、ニュース記事の要約との一致の程度を示す一致率を利用者端末200に提供する。
【0021】
以上説明した情報処理装置100の処理を実現する構成について、図3を用いて説明する。図3は、実施形態に係る情報処理の実現手段の一例を説明する図である。図3に示すように、本開示に係る情報処理は、日本語T5事前学習モデルに対して、文章の要約と、文章の本文を学習用データとして用いることより、要約タスクにファインチューニングした要約モデルによって実現される。当該の要約モデルに、ニュース記事の本文を入力することにより、要約を生成し、生成された要約と、ニュース記事のタイトルと、に基づいて、Rouge-Lスコアを算出して、Rouge-Lスコアに対してスコア変換を行うことより、一致率を算出する。そして、算出された一致率をニュース記事のタイトルと共に、利用者端末200に提供する。
【0022】
これによれば、ニュース記事のタイトルと、当該のニュース記事の本文の要約との一致率を算出して、ニュース記事のタイトルと共に算出された一致率を利用者に提供することができる。そのため、利用者は、ニュース記事のタイトルと、ニュース記事の内容の一致率を把握したうえで、ニュース記事を閲覧することができることから、ニュース記事のタイトルの表現とは異なる内容のニュース記事を閲覧することにより失望することを防ぐことができる。したがって、ニュース記事の本文とタイトルの一致率を算出し、利用者に対して適切な情報を提供することができる情報処理装置100を提供することができる。
【0023】
〔1-2.実施形態に係る情報処理の他の例〕
情報処理装置100は、算出した一致率に基づいて、利用者に提供する通知情報を決定し、決定された通知情報を利用者端末200に提供する。
【0024】
この情報処理について、図4を用いてステップごとに順を追って説明する。
【0025】
まず、情報処理装置100は、利用者端末200から利用者のニュース記事の選択を受け付ける(ステップS10)。例えば、情報処理装置100は、利用者端末200に複数のニュース記事のタイトルを表示させて、利用者からニュース記事の選択を受け付けてよい。
【0026】
次に、情報処理装置100は、ニュースの要約を生成する(ステップS20)。そして、情報処理装置100は、ニュース記事の要約と、ニュース記事のタイトルと、に基づいて、一致率を算出する(ステップS30)。なお、ステップS20は、前述して説明したステップS2と同じであるから説明を省略する。また、ステップS30は、前述して説明したステップS3と同じであるから説明を省略する。
【0027】
次に、情報処理装置100は、一致率に基づいて、利用者に提供する通知情報を決定する(ステップS40)。例えば、情報処理装置100の、後述して説明する通知情報記憶部123に一致率に応じて利用者に提供する通知情報を記憶しておく。そして、ステップS30において算出された一致率に基づいて、当該の一致率に対応付けられた通知情報を、通知情報記憶部123から読み出すことにより、利用者に提供する通知情報を決定してよい。なお、例えば、一致率が50%以下の場合に対応付けられる通知情報としては、「本ニュース記事のタイトルは、ニュース記事の本文との一致率が低いことから、当該のタイトルはニュース記事の本文の内容を正確に表現しているとは言えない可能性がありますので、ご注意ください。」といったメッセージMSであってよい。
【0028】
次に、情報処理装置100は、決定された通知情報を利用者端末200に提供する(ステップS50)。例えば、情報処理装置100は、前述したメッセージMSを利用者端末200に表示させることにより、利用者端末200に提供する。
【0029】
これによれば、ニュース記事の要約とニュース記事のタイトルの一致率に基づいて、利用者に提供する通知情報を決定し、決定された通知情報を利用者端末200に提供することができる。そのため、利用者は、一致率が低いニュース記事のタイトルによって過剰な期待を抱き、当該のニュース記事の本文を読んだ後に、ニュース記事のタイトルと異なる内容であったと感じて落胆することを防ぐことができる。したがって、ニュース記事の本文とタイトルの一致率を算出し、利用者に対して適切な情報を提供することができる情報処理装置100を提供することができる。
【0030】
〔2.情報処理システムの構成〕
次に、図5を用いて実施形態に係る情報処理システムの構成について説明する。図5は、実施形態に係る情報処理システムの構成例を示す図である。図5に示すように、実施形態に係る情報処理システム1は、情報処理装置100と、利用者端末200と、ネットワークNを有する。以下、これらの構成について簡単に順を追って説明する。
【0031】
情報処理装置100は、例えばPC(Personal Computer)、WS(Work Station)、サーバの機能を備えるコンピュータなどの情報処理装置であってよい。情報処理装置100は、例えば、利用者端末200からネットワークNを介して送信されてきた情報に基づいて処理を行う。
【0032】
利用者端末200は、利用者が利用する情報処理装置である。利用者端末200は、例えば、スマートフォン、タブレット型端末、デスクトップ型PC、ノート型PC、携帯電話機、PDA(Personal Digital Assistant)等の情報処理装置であってよい。なお、図1に示す例においては、利用者端末200がスマートフォンである場合を示している。また、情報処理システム1には、複数の利用者端末200が含まれていてよい。
【0033】
ネットワークNは、情報処理装置100と、利用者端末200を有線、又は無線により相互に通信可能に接続する。ネットワークNが有線の場合は、IEEE802.3に規定されるイーサネット(登録商標)(ETHERNET(登録商標))により実現されてよい。また、ネットワークNが無線の場合は、IEEE802.11に規定される無線LAN(Local Area Network)により実現されてよい。
【0034】
〔3.情報処理装置の構成〕
次に、図6を用いて、情報処理装置100の構成について説明する。
【0035】
図6は、実施形態に係る情報処理装置の構成例を示す図である。図6に示すように、情報処理装置100は、通信部110と、記憶部120と、制御部130と、を有する。
【0036】
(通信部110について)
通信部110は、例えば、NIC(Network Interface Card)、無線LAN(Local Area Network)カード等によって実現される。そして、通信部110は、ネットワークNと有線または無線で接続され、利用者端末200などとの間で情報の送受信を行う。
【0037】
(記憶部120について)
記憶部120は、主記憶装置と外部記憶装置とを備える。主記憶装置は、制御部130が実行するプログラム、あるいは制御部130が処理するデータを記憶する。主記憶装置は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ(Flash Memory)等のような半導体メモリ素子によって実現されてよい。外部記憶装置は、制御部130が処理するデータを保存する。外部記憶装置は、例えば、ハードディスクやSSD(Solid State Drive)、磁気テープ、光ディスク等によって実現されてよい。
【0038】
図6に示すように、記憶部120は、ニュース記事記憶部121と、要約モデル記憶部122と、通知情報記憶部123と、を有する。以下、これらの構成について順を追って説明する。
【0039】
(ニュース記事記憶部121について)
ニュース記事記憶部121は、ニュース記事に関係する情報を記憶する。ここで、図7を用いて、ニュース記事記憶部121が記憶する情報の一例を説明する。図7は、実施形態に係る情報処理装置のニュース記事記憶部に記憶される情報の一例を示す図である。
【0040】
図7に示す例において、ニュース記事記憶部121は、「ニュース記事ID」、「ニュース記事本文」、「タイトル」という項目に係る情報を紐付けて記憶する。
【0041】
「ニュース記事ID」は、ニュース記事記憶部121に記憶されるニュース記事を識別する識別子であり、文字列や番号などによって表される。「ニュース記事本文」は、「ニュース記事ID」により識別されるニュース記事の本文に関する情報であって、ニュース記事の本文を表すテキストデータなどの情報である。「タイトル」は、「ニュース記事ID」により識別されるニュース記事のタイトルを示す情報である。
【0042】
すなわち、図7においては、ニュース記事ID「NID#1」により識別されるニュース記事のニュース記事本文が「ATL#1」であり、当該のニュース記事のタイトルが「TLE#1」であることを示している。
【0043】
なお、ニュース記事記憶部121に記憶される情報は、「ニュース記事ID」、「ニュース記事本文」、「タイトル」という項目に係る情報に限定されるものではなく、その他の任意のニュース記事に関係する情報が記憶されてよい。
【0044】
(要約モデル記憶部122について)
要約モデル記憶部122は、要約モデルに関係する情報を記憶する。ここで、図8を用いて、要約モデル記憶部122が記憶する情報の一例を説明する。図8は、実施形態に係る情報処理装置の要約モデル記憶部に記憶される情報の一例を示す図である。
【0045】
図8に示す例において、要約モデル記憶部122は、「モデルID」、「モデルデータ」という項目に係る情報を紐付けて記憶する。
【0046】
「モデルID」は、モデルを識別する識別子であり、文字列や番号によって表される。「モデルデータ」は、モデルのモデルデータを示す。モデルは、機械学習モデルであってよく、例えば、ニューラルネットワークなどであってよい。
【0047】
すなわち、図8において、モデルID「M#1」で識別されるモデルは、モデルM#1を示す。また、モデルデータ「MDT#1」は、モデルM#1のモデルデータを示す。
【0048】
ここで、モデルがニューラルネットワークである場合は、モデルデータ「MDT#1」には、例えば、ニューラルネットワークを構成する複数の層のそれぞれに含まれるノードが互いにどのように結合するかという結合情報や、結合されたノード間で入出力される数値に掛け合わされる結合係数などの各種情報が含まれる。
【0049】
なお、要約モデル記憶部122に記憶される情報は、「モデルID」、「モデルデータ」という項目に係る情報に限定されるものではなく、その他の任意の要約モデルに関係する情報が記憶されてよい。
【0050】
(通知情報記憶部123について)
通知情報記憶部123は、利用者に提供する通知情報に関係する情報を記憶する。ここで、図9を用いて、通知情報記憶部123が記憶する情報の一例を説明する。図9は、実施形態に係る情報処理装置の通知情報記憶部に記憶される情報の一例を示す図である。
【0051】
図9に示す例において、通知情報記憶部123は、「通知情報ID」、「通知情報」、「一致率」という項目に係る情報を紐付けて記憶する。
【0052】
「通知情報ID」は、通知情報を識別する識別子であり、文字列や番号などによって表される。「通知情報」は、「通知情報ID」により識別される通知情報の中身を示し、例えば、利用者に対するメッセージを表現したテキストデータや、動画データ、静止画像データであってよい。「一致率」は、「通知情報ID」により識別される通知情報を利用者に提供することになる一致率の値を示す。
【0053】
すなわち、図9においては、通知情報ID「NTID#1」により識別される通知情報が「NTIF#1」として記憶されており、当該の通知情報を利用者に提供することになる一致率が「SCR#1」であることを示している。
【0054】
なお、通知情報記憶部123に記憶される情報は、「通知情報ID」、「通知情報」、「一致率」という項目に係る情報に限定されるものではなく、その他の任意の利用者に提供する通知情報に関係する情報が記憶されてよい。
【0055】
(制御部130について)
次に、図6に戻って、制御部130について説明する。制御部130は、情報処理装置100を制御するコントローラ(Controller)であり、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、情報処理装置100の記憶部120に記憶されている各種プログラムを読み出して、RAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラであり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array))等の集積回路により実現されてもよい。
【0056】
制御部130は、図6に示すように、受付部131と、生成部132と、算出部133と、決定部134と、提供部135を有する。制御部130は、記憶部120からプログラムを読み出して、RAMを作業領域として実行することで、これらの機能を実現して、以下に説明する情報処理の機能や作用を実現または実行する。以下、これらの処理を、順を追って説明する。
【0057】
(受付部131について)
受付部131は、利用者端末200から利用者のニュース記事の選択を受け付ける。例えば、受付部131は、利用者端末200に複数のニュース記事のタイトルを表示させて、利用者から表示された複数のニュース記事の中から、利用者が閲覧を希望するニュース記事の選択を受け付けてよい。
【0058】
(生成部132について)
生成部132は、ニュース記事の本文に基づいて、ニュース記事の要約を生成する。生成部132は、要約モデル記憶部122に記憶されたT5などの抽象型要約モデルを用いることによって、ニュース記事の本文のテキストデータから、ニュース記事の本文の要約を生成する。T5には、日本語の事前学習済みモデルを用いてよく、文章の要約と、文章の本文を学習用データとして用いることにより、要約タスクに対してファインチューニングされたものを用いてよい。また、要約モデルに入力するニュース記事の本文のテキストデータは、受付部131が利用者から受け付けたニュース記事のものであってもよい。
【0059】
(算出部133について)
算出部133は、生成部132が生成したニュース記事の要約と、当該のニュース記事のタイトルと、に基づいて、ニュース記事の本文と、ニュース記事のタイトルとの一致の程度を示す一致率を算出する。すなわち、算出部133は、生成部132において生成したニュース記事の要約と、ニュース記事のタイトルに基づいて、一致率を算出する。具体的には、算出部133は、ニュース記事の要約と、ニュース記事のタイトルに基づいて、下記の式(1)、(2)、(3)に基づいて、Rouge-Lを算出する。
【0060】
【数1】
【数2】
【数3】
【0061】
なお、式(1)において、Xは、ニュース記事の本文の要約を示し、Yは、ニュース記事のタイトルを示す。また、nは、ニュース記事の本文の要約の長さを示し、mは、ニュース記事のタイトルの長さを示す。また、LCS(X,Y)は、XとYの最長共通部分列を示し、βは、∂Flcs/∂Rlcs=∂Flcs/∂PlcsであるときのPlcs/Rlcsである。また、式(3)に示すFlcsが、Rouge-Lである。
【0062】
次に、算出部133は、式(3)によって算出されたRouge-Lを次の式(4)に入力することにより、一致率を算出する。
【0063】
【数4】
【0064】
なお、式(4)において、xはRouge-Lを示し、scoreは一致率を示す。
【0065】
このように、算出部133は、Rouge-Lを用いて、要約モデルが生成した要約と、正解の要約(本ケースにおいては、ニュース記事のタイトル)とにおける最長共通部分列に基づいて一致率を算出する。言い換えると、算出部133は、ニュース記事の要約と、当該のニュース記事のタイトルの一致率を、ニュース記事の要約と当該のニュース記事のタイトルの最長共通部分列に基づいて算出する。
【0066】
(決定部134について)
決定部134は、算出部133が算出した一致率に基づいて、利用者に提供する通知情報を決定する。例えば、通知情報記憶部123に一致率に応じて利用者に提供する通知情報を記憶しておく。そして、決定部134は、生成部132において算出された一致率に基づいて、当該の一致率に対応付けられた通知情報を、通知情報記憶部123から読み出すことにより、利用者に提供する通知情報を決定してよい。なお、例えば、一致率が50%以下の場合に対応付けられる通知情報としては、「本ニュース記事のタイトルは、ニュース記事の本文との一致率が低いことから、当該のタイトルはニュース記事の本文の内容を正確に表現しているとは言えない可能性がありますので、ご注意ください。」といったメッセージであってよい。
【0067】
(提供部135について)
提供部135は、利用者端末200に各種の情報を提供する。以下に、提供部135が利用者端末200に提供する情報の具体例について説明する。
【0068】
例えば、提供部135は、ニュース記事のタイトルと共に、当該のニュース記事のタイトルと、ニュース記事の要約に基づいて、算出部133が算出した一致率を利用者端末200に提供する。例えば、提供部135は、図3に示すような態様により、ニュース記事のタイトルと共に、当該のニュース記事のタイトルとニュース記事の本文の要約との一致率を利用者端末200に提供する。図3に示すように、提供部135は、利用者端末200にニュース記事のタイトルの隣に、算出部133において算出された一致率の算出結果を表示させる。このように、提供部135は、ニュース記事のタイトルと共に、ニュース記事の本文と、ニュース記事の要約との一致の程度を示す一致率を利用者端末200に提供する。
【0069】
また、提供部135は、決定部134が決定した通知情報を利用者端末200に提供する。例えば、提供部135は、決定部134が決定した通知情報がメッセージである場合であれば、メッセージを利用者端末200に表示させることにより、利用者端末200に提供する。
【0070】
〔4.利用者端末の構成〕
次に、図10を用いて、実施形態に係る利用者端末200の構成について説明する。図10は、実施形態に係る利用者端末の構成例を示す図である。図10に示すように、利用者端末200は、通信部210と、入力部220と、出力部230と、制御部240を有する。
【0071】
通信部210は、例えば、NIC、無線LANカード等によって実現される。そして、通信部210は、ネットワークNと有線又は無線で接続され、ネットワークNを介して、情報処理装置100との間で各種の情報の送受信を行う。
【0072】
入力部220は、利用者から各種の操作情報が入力される。例えば、入力部220は、タッチパネルにより表示面(例えば出力部230)を介して利用者からの各種操作を受け付けてもよい。また、入力部220は、利用者端末200に設けられたボタンや、利用者端末200に接続されたキーボードやマウスからの各種操作を受け付けてもよい。
【0073】
出力部230は、例えば液晶ディスプレイや有機EL(Electro-Luminescence)ディスプレイ等によって実現されるタブレット型端末等の表示画面であり、各種情報を表示するための表示装置である。つまり、利用者端末200は、入力部220がタッチパネルである場合は、出力部230である表示画面により利用者の入力を受け付け、利用者への出力も行う。また、出力部230は、スピーカーであってもよく、スピーカーにより音声を出力してよい。
【0074】
制御部240は、例えば、CPUやMPU等によって、利用者端末200に記憶されている各種プログラムがRAMを作業領域として実行されることにより実現される。また、制御部240は、例えば、ASICやFPGA等の集積回路により実現されてもよい。
【0075】
図10に示すように、制御部240は、受付部241と、提供部242と、を有する。
【0076】
受付部241は、利用者の各種の操作を受け付ける。例えば、受付部241は、出力部230に複数のニュース記事のタイトルを表示させて、利用者からニュース記事の選択を受け付けてよい。
【0077】
提供部242は、利用者に各種の情報を提供する。例えば、提供部242は、出力部230に、情報処理装置100の提供部135から提供されたニュース記事のタイトルと共に、当該のニュース記事のタイトルと、ニュース記事の要約に基づく一致率を表示させる。また、提供部242は、情報処理装置100の提供部135から提供された通知情報を出力部230に表示させる。
【0078】
〔5.情報処理のフロー〕
次に、図11を用いて、実施形態に係る情報処理の手順について説明する。図11は、実施形態に係る情報処理の一例を示すフローチャートである。以下、図11に示すフローチャートに沿って、実施形態に係る情報処理の手順について説明する。
【0079】
まず、情報処理装置100は、利用者端末200から利用者のニュース記事の選択を受け付ける(ステップS101)。次に、情報処理装置100は、ニュース記事の要約を生成する(ステップS102)。そして、情報処理装置100は、ニュース記事の要約と、ニュース記事のタイトルと、に基づいて、一致率を算出する(ステップS103)。そして、情報処理装置100は、一致率に基づいて、利用者に提供する通知情報を決定する(ステップS104)。そして、情報処理装置100は、決定された通知情報を利用者端末200に提供する(ステップS105)。
【0080】
これによれば、ニュース記事の要約とニュース記事のタイトルの一致率に基づいて、利用者に提供する通知情報を決定し、決定された通知情報を利用者端末200に提供することができる。そのため、利用者は、一致率が低いニュース記事のタイトルによって過剰な期待を抱き、当該のニュース記事の本文を読んだ後に、ニュース記事のタイトルと異なる内容であったと感じて落胆することを防ぐことができる。したがって、ニュース記事の本文とタイトルの一致率を算出し、利用者に対して適切な情報を提供することができる情報処理方法、及び情報処理プログラムを提供することができる。
【0081】
〔6.ハードウェア構成〕
また、上述した実施形態に係る情報処理装置100は、例えば図12に示すような構成のコンピュータ1000によって実現される。図12は、情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、出力装置1010、入力装置1020と接続され、演算装置1030、一次記憶装置1040、二次記憶装置1050、出力IF(Interface)1060、入力IF1070、ネットワークIF1080がバス1090により接続された形態を有する。
【0082】
演算装置1030は、一次記憶装置1040や二次記憶装置1050に格納されたプログラムや入力装置1020から読み出したプログラム等に基づいて動作し、各種の処理を実行する。一次記憶装置1040は、RAM等、演算装置1030が各種の演算に用いるデータを一次的に記憶するメモリ装置である。また、二次記憶装置1050は、演算装置1030が各種の演算に用いるデータや、各種のデータベースが記憶される記憶装置であり、ROM(Read Only Memory)、HDD(Hard Disk Drive)、フラッシュメモリ等により実現される。
【0083】
出力IF1060は、モニタやプリンタといった各種の情報を出力する出力装置1010に対し、出力対象となる情報を送信するためのインタフェースであり、例えば、USB(Universal Serial Bus)やDVI(Digital Visual Interface)、HDMI(登録商標)(High Definition Multimedia Interface)といった規格のコネクタにより実現される。また、入力IF1070は、マウス、キーボード、およびスキャナ等といった各種の入力装置1020から情報を受信するためのインタフェースであり、例えば、USB等により実現される。
【0084】
なお、入力装置1020は、例えば、CD(Compact Disc)、DVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等から情報を読み出す装置であってもよい。また、入力装置1020は、USBメモリ等の外付け記憶媒体であってもよい。
【0085】
ネットワークIF1080は、ネットワークNを介して他の機器からデータを受信して演算装置1030へ送り、また、ネットワークNを介して演算装置1030が生成したデータを他の機器へ送信する。
【0086】
演算装置1030は、出力IF1060や入力IF1070を介して、出力装置1010や入力装置1020の制御を行う。例えば、演算装置1030は、入力装置1020や二次記憶装置1050からプログラムを一次記憶装置1040上にロードし、ロードしたプログラムを実行する。
【0087】
例えば、コンピュータ1000が情報処理装置100として機能する場合、コンピュータ1000の演算装置1030は、一次記憶装置1040上にロードされたプログラムを実行することにより、情報処理装置100の制御部130の機能を実現する。
【0088】
〔7.構成と効果〕
本開示に係る情報処理装置100は、ニュース記事の本文に基づいて、ニュース記事の要約を生成する生成部132と、生成部132が生成したニュース記事の要約と、当該のニュース記事のタイトルと、に基づいて、ニュース記事の本文と、ニュース記事のタイトルとの一致の程度を示す一致率を算出する算出部133と、利用者端末200に各種の情報を提供する提供部135と、を備え、提供部135は、ニュース記事のタイトルと共に、当該のニュース記事のタイトルと、ニュース記事の要約に基づいて、算出部133が算出した一致率を利用者端末200に提供する。
【0089】
この構成によれば、ニュース記事のタイトルと、当該のニュース記事の本文の要約との一致率を算出して、ニュース記事のタイトルと共に算出された一致率を利用者に提供することができる。そのため、利用者は、ニュース記事のタイトルと、ニュース記事の内容の一致率を把握したうえで、ニュース記事を閲覧することができることから、ニュース記事のタイトルの表現とは異なる内容のニュース記事を閲覧することにより失望することを防ぐことができる。したがって、ニュース記事の本文とタイトルの一致率を算出し、利用者に対して適切な情報を提供することができる情報処理装置100を提供することができる。
【0090】
本開示に係る情報処理装置100の算出部133が算出した一致率に基づいて、利用者に提供する通知情報を決定する決定部134と、をさらに備え、提供部135は、決定部134が決定した通知情報を利用者端末200に提供する。
【0091】
この構成によれば、ニュース記事の要約とニュース記事のタイトルの一致率に基づいて、利用者に提供する通知情報を決定し、決定された通知情報を利用者端末200に提供することができる。そのため、利用者は、一致率が低いニュース記事のタイトルによって過剰な期待を抱き、当該のニュース記事の本文を読んだ後に、ニュース記事のタイトルと異なる内容であったと感じて落胆することを防ぐことができる。したがって、ニュース記事の本文とタイトルの一致率を算出し、利用者に対して適切な情報を提供することができる情報処理装置100を提供することができる。
【0092】
本開示に係る情報処理装置100の算出部133は、ニュース記事の要約と、当該のニュース記事のタイトルの一致率を、ニュース記事の要約と当該のニュース記事のタイトルの最長共通部分列に基づいて算出する。
【0093】
この構成によれば、最長共通部分列に基づいて、ニュース記事の要約と、当該のニュース記事のタイトルの一致率を算出することができる。そのため、適切にニュース記事の本文とタイトルの一致率を算出し、利用者に対して適切な情報を提供することができる情報処理装置100を提供することができる。
【0094】
本開示に係る情報処理方法は、ニュース記事の本文に基づいて、ニュース記事の要約を生成するステップと、生成したニュース記事の要約と、当該のニュース記事のタイトルと、に基づいて、ニュース記事の本文と、ニュース記事のタイトルとの一致の程度を示す一致率を算出するステップと、利用者端末200に各種の情報を提供するステップと、を含み、提供するステップにおいては、ニュース記事のタイトルと共に、当該のニュース記事のタイトルと、ニュース記事の要約に基づいて、算出するステップにおいて算出した一致率を利用者端末200に提供する。
【0095】
この構成によれば、ニュース記事のタイトルと、当該のニュース記事の本文の要約との一致率を算出して、ニュース記事のタイトルと共に算出された一致率を利用者に提供することができる。そのため、利用者は、ニュース記事のタイトルと、ニュース記事の内容の一致率を把握したうえで、ニュース記事を閲覧することができることから、ニュース記事のタイトルの表現とは異なる内容のニュース記事を閲覧することにより失望することを防ぐことができる。したがって、ニュース記事の本文とタイトルの一致率を算出し、利用者に対して適切な情報を提供することができる情報処理方法を提供することができる。
【0096】
本開示に係る情報処理プログラムは、ニュース記事の本文に基づいて、ニュース記事の要約を生成するステップと、生成したニュース記事の要約と、当該のニュース記事のタイトルと、に基づいて、ニュース記事の本文と、ニュース記事のタイトルとの一致の程度を示す一致率を算出するステップと、利用者端末に各種の情報を提供するステップと、を含み、提供するステップにおいては、ニュース記事のタイトルと共に、当該のニュース記事のタイトルと、ニュース記事の要約に基づいて、算出するステップにおいて算出した一致率を利用者端末200に提供すること、をコンピュータに実行させる。
【0097】
この構成によれば、ニュース記事のタイトルと、当該のニュース記事の本文の要約との一致率を算出して、ニュース記事のタイトルと共に算出された一致率を利用者に提供することができる。そのため、利用者は、ニュース記事のタイトルと、ニュース記事の内容の一致率を把握したうえで、ニュース記事を閲覧することができることから、ニュース記事のタイトルの表現とは異なる内容のニュース記事を閲覧することにより失望することを防ぐことができる。したがって、ニュース記事の本文とタイトルの一致率を算出し、利用者に対して適切な情報を提供することができる情報処理プログラムを提供することができる。
【0098】
以上、本願の実施形態を図面に基づいて詳細に説明したが、これは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0099】
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、受付部131は、受付手段や受付回路に読み替えることができる。
【符号の説明】
【0100】
1 情報処理システム
100 情報処理装置
110 通信部
120 記憶部
121 ニュース記事記憶部
122 要約モデル記憶部
123 通知情報記憶部
130 制御部
131 受付部
132 生成部
133 算出部
134 決定部
135 提供部
200 利用者端末
210 通信部
220 入力部
230 出力部
240 制御部
241 受付部
242 提供部
N ネットワーク
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12