(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0009】
以下に、本願に係る生成装置、生成方法、及び生成プログラムを実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る生成装置、生成方法、及び生成プログラムが限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【0010】
(実施形態)
〔1.生成処理〕
まず、
図1を用いて、実施形態に係る生成処理の一例について説明する。
図1は、実施形態に係る生成処理の一例を示す図である。なお、本実施形態における生成処理には、生成した短縮タイトルを含むコンテンツを配信する処理を含む。
図1に示す生成装置100は、端末装置10からの配信要求に基づいて短縮タイトルを含むコンテンツを配信する配信サービスを提供する。
【0011】
図1に示すように、生成システム1には、端末装置10と、生成装置100とが含まれる。端末装置10と、生成装置100とは図示しない所定の通信網を介して、有線または無線により通信可能に接続される。また、
図1に示した生成システム1には、複数台の端末装置10や、複数台の生成装置100が含まれてもよい。
【0012】
端末装置10は、ユーザによって利用される情報処理装置である。端末装置10は、例えば、スマートフォンや、タブレット型端末や、ノート型PC(Personal Computer)や、デスクトップPCや、携帯電話機や、PDA(Personal Digital Assistant)等により実現される。
図1に示す例においては、端末装置10がタッチパネル機能を有するスマートフォンである場合を示す。なお、以下では、端末装置10をユーザと表記する場合がある。すなわち、以下では、ユーザを端末装置10と読み替えることもできる。
【0013】
また、端末装置10は、生成装置100へコンテンツの配信を要求する。また、端末装置10は、生成装置100から配信されたコンテンツを所定のアプリにより表示する。なお、所定のアプリはブラウザであってもよい。
【0014】
生成装置100は、端末装置10に短縮タイトルを含むコンテンツを配信するサービスを提供する情報処理装置である。また、生成装置100は、ユーザ関連情報に基づいて、文字情報から要約情報を生成する。例えば、生成装置100は、ユーザ関連情報に基づいて、所定のコンテンツのタイトルをさらに短縮した短縮タイトルを生成する。
【0015】
なお、生成システム1には、提供元装置(図示省略)や編集者端末(図示省略)が含まれてもよい。例えば、提供元装置は、コンテンツの提供元、いわゆるコンテンツプロバイダ等によって利用される情報処理装置である。例えば、提供元装置は、提供元により作成されたコンテンツを生成装置100に入稿する。また、例えば、編集者端末は、所定の編集者によって利用される情報処理装置である。例えば、編集者端末は、例えば、コンテンツの本文やタイトルから短縮タイトルを作成する編集者が利用する端末装置である。
【0016】
以下、
図1を用いて生成装置100による短縮タイトルの生成及び配信について説明する。
図1の例では、生成装置100は、所定の編集者が利用する編集者端末から短縮タイトルと元となるタイトルとが対応付けられた要約一覧EL11を取得済みであるものとする。
図1に示す要約一覧EL11は、
図3に示す編集情報記憶部121に記憶される編集情報に対応し、各コンテンツについて、所定の編集者が作成した短縮タイトルと、そのコンテンツの元のタイトルとが対応付けられた情報である。具体的には、要約一覧EL11は、所定のコンテンツのタイトルAから短縮タイトルAが作成され、所定のコンテンツのタイトルBから短縮タイトルBが作成され、所定のコンテンツのタイトルCから短縮タイトルCが作成されたことを示す。なお、
図1の例では、説明を簡単にするために要約一覧EL11には、短縮タイトルに対応付けられたコンテンツの記事自体が含まれてもよい。
【0017】
まず、生成装置100は、要約一覧EL11を用いた学習により、要約一覧EL11から要約生成モデルM11(以下、単に「モデルM11」ともいう)を生成する(ステップS11)。例えば、生成装置100は、要約一覧EL11に示す情報を編集情報記憶部121(
図3参照)から取得し、要約生成モデルM11を学習する。このように、
図1の例では、生成装置100は、要約一覧EL11に含まれる所定の編集者が作成した短縮タイトルとその元となるタイトルの組み合わせを用いて、要約生成モデルM11を学習する。例えば、生成装置100は、要約一覧EL11に含まれる所定の編集者が作成した短縮タイトルとその元となるタイトルの組み合わせを正例として、所定のタイトル等の文字情報が入力された場合に短縮タイトルを出力する要約生成モデルM11を学習する。
【0018】
また、生成装置100は、学習により生成した要約生成モデルM11をモデル情報記憶部122(
図4参照)に記憶する。例えば、生成装置100は、要約一覧EL11に含まれる元タイトルや短縮タイトルに基づいて、カレントニューラルネットワーク等のニューラルネットワークや係り受け解析等の種々の従来技術を適宜用いて、要約生成モデルM11を学習する。なお、要約生成モデルM11は、例えばコンテンツのタイトルや記事の入力に対して、所定の文字数以内の短縮タイトルを生成するためのモデルであるが、要約生成モデルM11の詳細については後述する。
【0019】
そして、生成装置100は、端末装置10からコンテンツの配信要求を取得する(ステップS12)。また、
図1の例では、生成装置100は、ステップS12において、端末装置10から端末装置10を利用するユーザU1に関するユーザ関連情報を取得する。例えば、生成装置100は、端末装置10からユーザU1の属性情報や端末装置10に関する端末情報やユーザU1のコンテキスト情報等の種々の情報を取得する。
図1の例では、生成装置100は、ユーザ関連情報記憶部123に示すようなユーザ関連情報を取得するものとする。
【0020】
例えば、生成装置100は、ユーザ関連情報として、ユーザU1が30代男性であり、居住地が「地域A」であることを示す属性情報を取得する。また、例えば、生成装置100は、ユーザ関連情報として、ユーザU1が利用する端末装置10の型番が「TM11」であり、画面サイズが「SZ11」であり、設定されたフォントが「FT11」であることを示す端末情報を取得する。なお、フォント「FT11」には、フォントの種類やフォントサイズ等の種々の情報が含まれるものとする。また、例えば、生成装置100は、ユーザ関連情報として、ユーザU1が利用する端末装置10の現在位置が「LC11」であり、加速度が「AC11」であり、コンテキストが「CN11」であることを示すコンテキスト情報を取得する。なお、ユーザ関連情報は、ユーザに関連する情報であればどのような情報であってもよい。例えば、ユーザ関連情報は、ユーザの脳波や心拍数や、推定された感情の情報などであってもよい。また、コンテキストは、長期休暇中や旅行中や電車内など、粒度によって複数に分けても良い。また、ここでいうユーザ関連情報は、ユーザを取り巻く環境等の種々の情報が含まれてもよく、天気、気温、湿度、イベント、株価、当日のニュースなど、種々の情報が含まれてもよい。
【0021】
ここでいうコンテキストは、ユーザU1や端末装置10の状況やユーザU1や端末装置10の環境(背景)を意味する。例えば、コンテキストは、ユーザU1によって端末装置10が使われている状況や、端末装置10を所持するユーザU1が置かれている状態に対応する情報である。すなわち、
図1におけるコンテキストは、ユーザU1の状況、例えばユーザU1がいる場所の環境に対応する。具体的には、
図1におけるコンテキストは、各ユーザ関連情報が取得された時点におけるユーザU1の状況に対応する。
【0022】
また、ユーザU1のコンテキストが「CN11」であることは、ユーザU1が利用する端末装置10の現在位置が「LC11」であることを示す情報や、加速度が「AC11」であることを示す情報や、種々の情報に基づいて推定されてもよい。
【0023】
また、
図1の例では、説明を簡単にするために、生成装置100がステップS12において、各種のユーザ関連情報を取得する場合を示すが、生成装置100は、各種のユーザ関連情報を各々所定のタイミングで取得してもよい。例えば、生成装置100は、所定のタイミングでユーザU1のコンテキスト情報を取得し、取得したコンテキスト情報に基づいてユーザU1のコンテキストを推定してもよい。また、生成装置100は、ユーザU1の属性情報をステップS12よりも前に取得済みである場合、ステップS12においては、ユーザU1の属性情報を取得しなくてもよい。この場合、生成装置100は、端末装置10を利用するユーザがユーザU1であることを識別するための情報を取得してもよい。
【0024】
以下では、ステップS12における配信要求に対して、生成装置100がコンテンツCT11〜CT14を配信するものとして説明する。なお、ここでいうコンテンツCT11とは、コンテンツID「CT11」により識別されるコンテンツを意味する。また、コンテンツCT12とは、コンテンツID「CT12」により識別されるコンテンツを意味する。
図1に示すコンテンツ一覧CL11は、
図6に示すコンテンツ情報記憶部124に記憶されるコンテンツ情報に対応する。例えば、コンテンツCT11は、タイトル「X月Y日○○県でバス横転、直前のスピード、時速95km超」や画像IM11等を含む。なお、コンテンツCT11には、記事が含まれるが
図1では図示を省略する。
【0025】
生成装置100は、コンテンツCT11〜CT14を配信するために、コンテンツCT11〜CT14の各々に対応する短縮タイトルAT11〜AT14を生成する(ステップS13)。例えば、生成装置100は、コンテンツCT11〜CT14の各々に対応するタイトルに基づいて、タイトルリストAL11に示すような短縮タイトルAT11〜AT14を生成する。
【0026】
図1では、生成装置100がコンテンツCT11〜CT14を配信するために、コンテンツCT11〜CT14の各々に対応する短縮タイトルAT11〜AT14を生成するが、以下では、コンテンツCT11に対応する短縮タイトルAT11の生成を例に説明する。
【0027】
ここで、生成装置100は、短縮タイトルを生成するために要約生成モデルM11を用いる。例えば、生成装置100は、要約生成モデルM11を用いて各単語の各位置におけるスコアを算出する。例えば、生成装置100は、以下の式(1)により各位置における各単語のスコアを算出する。
【0028】
W_xのスコア = P(W_x|W_{1}^{x−1},INPUT) ・・・ (1)
【0029】
上記式(1)では、「W_x」は、任意の単語を示す。また、上記式(1)では、「W_{1}^{x−1}」は、単語「W_x」よりも前の1〜x−1番目までの単語を示す。このように、上記式(1)では、推定しようとする文字(単語「W_x」)より前に出力した単語すべてを条件とする。また、「W_x」の「x」と、「W_{1}^{x−1}」の「x−1」とは、対応する単語の位置関係を示し、「W_{x−1}」は「W_x」の直前に位置する単語となる。すなわち、「W_x」は「W_{x−1}」に続く単語を意味する。
【0030】
上記式(1)の右辺中の「INPUT」は、例えばモデルM11の入力となる文字列を示す。例えば、
図1の例では、コンテンツCT11のタイトル等が入力となる。なお、「W_x」に対応する単語と、「W_{x−1}」に対応する単語とは異なる単語であってもよいし、同じ単語であってもよい。また、単語は、入力「INPUT」に含まれる単語に限らず、種々の単語であってもよい。例えば、単語「W」は、入力に含まれる単語の省略形や略語やニックネーム等であってもよい。また、ここでいう単語には、形態素、文字(ひらがな、カタカナ、漢字1文字)等も含まれてもよい。
【0031】
例えば、W_xのスコアは、任意の文字列「INPUT」を入力として要約(短縮タイトル)を生成する場合において、任意の単語「W_{x−1}」の次に「W_x」に遷移する確率に対応するスコアとなる。例えば、W_xのスコアは、事後確率に基づくスコアであってもよい。このように、上記式(1)の右辺中の「P」は、任意の文字列「INPUT」に応じて所定のスコアを返す関数である。
【0032】
例えば、1文字目に位置する任意の単語「W1」のスコアは、以下のような式(2)により算出される。
【0033】
W1のスコア = P(W1|<S>,INPUT) ・・・ (2)
【0034】
上記式(2)において、右辺中の「<S>」は、先頭を示す記号である。すなわち、上記式(2)の右辺中の「P」は、任意の文字列「INPUT」を入力として要約(短縮タイトル)を生成する場合において、任意の単語「W1」が先頭に出現する確率に対応するスコアを返す関数である。
【0035】
例えば、下記の式(3)は、任意の文字列「INPUT」を入力として要約(短縮タイトル)を生成する場合において、単語「バス」が先頭に出現する確率に対応するスコアを示す。この場合、任意の文字列「INPUT」は、コンテンツCT11のタイトル「X月Y日○○県でバス横転、直前のスピード、時速95km超」であるものとする。
【0036】
W1(“バス”)のスコア = P(バス|<S>,INPUT) ・・・ (3)
【0037】
また、例えば、下記の式(4)は、任意の文字列「INPUT」を入力として要約(短縮タイトル)を生成する場合において、単語「横転」へ単語「バス」の次に遷移する確率に対応するスコアを示す。この場合、任意の文字列「INPUT」は、コンテンツCT11のタイトル「X月Y日○○県でバス横転、直前のスピード、時速95km超」であるものとする。
【0038】
W2(“横転”)のスコア = P(横転|バス,INPUT) ・・・ (4)
【0039】
なお、上記式(4)では、説明を簡単にするために、W2のスコアの算出にW1のスコアを用いない場合を示すが、W1のスコアを加算したり、乗算したりしたW2のスコアを算出してもよい。すなわち、W2のスコアは、W1のスコアの影響を加味したスコアであってもよい。
【0040】
上述したような、例えば、任意の文字列「INPUT」中のすべての単語で展開した木構造は、各単語をノードとする木構造(
図9中の「木構造ST11」参照。以下同じ)により示される。このように、生成装置100は、上記式(3)や(4)等の例に示すように、各単語の条件付き確率に基づくスコアを算出し、そのスコアに基づいて単語をつなげることにより、短縮タイトルを生成する。例えば、
図9に示すような木構造ST11の所定の系列(経路)に対応するノード(単語)のスコアの合計が最大の経路の単語をつなげて短縮タイトルを生成してもよい。
【0041】
また、
図1の例では、端末装置10の画面サイズ「SZ11」及びフォント「FT11」により、短縮タイトルの文字数の上限値が決定されているものとする。例えば、短縮タイトルの文字数の上限値は、「全角13」文字とする。例えば、フォントが「FT11」である場合において、端末装置10の表示領域AR11に表示可能な文字数が全角13文字であるものとする。
【0042】
例えば、生成装置100は、文字数の上限値「全角13」を満たす木構造中の経路のうち、スコアが最大の経路を短縮タイトルとする。例えば、生成装置100は、木構造の所定の経路に対応する単語をつなげた文字列にあるノードを加えることにより、文字数が上限値を超えた場合、そのノードへの探索を行なわず、そのノードより先の経路の探索を終了してもよい。また、生成装置100は、ビーム探索等の種々の従来技術を適宜用いて、探索範囲の増大を抑制するが詳細は後述する。
【0043】
ここで、
図1に示す例では、生成装置100は、ユーザ関連情報を加味したスコアを算出する。例えば、生成装置100は、ステップS12において取得したユーザU1のユーザ関連情報を加味したスコアを算出する。例えば、生成装置100は、以下の式(5)を用いてユーザ関連情報を加味したスコアを算出する。
【0044】
W_xのスコア = P(W_x|W_{1}^{x−1},INPUT)*U(Wx|W_{1}^{x−1},USER) ・・・ (5)
【0045】
上記式(5)の右辺中の「U」は、任意のユーザのユーザ関連情報「USER」に対して短縮タイトルを生成する場合において、任意の単語「W_{x−1}」の次に「W_x」へ遷移する確率に対応するスコアを返す関数となる。例えば、上記式(5)の右辺中の「U」は、事後確率に基づくスコアを返す関数であってもよい。このように、上記式(5)の右辺中の「U」は、任意のユーザのユーザ関連情報「USER」に応じて所定のスコアを返す関数である。ユーザ関連情報「USER」は、ユーザの属性情報や端末情報やコンテキスト情報が含まれる。なお、上記式(5)は、W_xのスコアを算出する一例であり、生成装置100は、加算する等、種々の方法によりW_xのスコアを算出してもよい。例えば、生成装置100は、下記の式(6)を用いて、W_xのスコアを算出してもよい。例えば、下記の式(6)中の関数「f」は、関数「P」の値や関数「U」の値を合算したりする等、関数「P」の値や関数「U」の値を用いて所定のスコアを算出する関数である。
【0046】
W_xのスコア = f(P(W_x|W_{1}^{x−1}Wx−1,INPUT),U(Wx|W_{1}^{x−1}Wx−1,USER)) ・・・ (6)
【0047】
例えば、関数「U」は、所定のユーザモデルにより実現されてもよい。例えば、各ユーザに対して所定の短縮タイトルを配信した場合において、その短縮タイトルをユーザが選択した場合に、その短縮タイトルとそのユーザのユーザ関連情報を正例として学習することにより、ユーザモデルを生成してもよい。この場合、例えば、ユーザモデルの各素性には、ユーザ属性情報や端末情報やコンテキスト情報などのユーザ関連情報に関する素性が含まれる。なお、上記は一例であり、関数「U」は、どのように生成されてもよい。例えば、関数「U」は、端末情報の画面サイズが小さい場合、文字数が小さい単語のスコアが高くなるようにスコアを算出してもよい。また、例えば、生成装置100は、ユーザのニュース閲覧履歴におけるニュース中の単語のスコアを上げるようにしてもよい。例えば、生成装置100は、上記式(5)のようにユーザが閲覧しているニュースの言語モデルとしてもよいし、単に関数「U」を「U(W_x|USER)」などとし、ユーザがよく知っている(自然に感じる)単語の確率を上げるようにしてもよい。また、生成装置100は、関数「U」を「U()=U1()*U2()*…」などとして、関数「U1」はある年齢のユーザ層のスコア、関数「U2」はある地域のユーザ層のスコア等のように、ユーザ関連情報の内容ごとに算出したスコアを用いて、関数「U」のスコアを算出してもよい。
【0048】
例えば、下記の式(7)は、ユーザがU1である場合のユーザ関連情報「U1」に対して短縮タイトルを生成する場合において、単語「バス」が先頭に出現する確率に対応するスコアを示す。この場合、任意の文字列「INPUT」は、コンテンツCT11のタイトル「X月Y日○○県でバス横転、直前のスピード、時速95km超」であるものとする。
【0049】
W1(“バス”)のスコア = P(バス|<S>,INPUT)*U(バス|<S>,U1) ・・・ (7)
【0050】
上記式(7)により、ユーザがU1であり、任意の文字列「INPUT」を入力として要約(短縮タイトル)を生成する場合において、単語「バス」が先頭に出現する確率に対応するスコアを示す。例えば、
図9中に示す例では、単語「バス」が先頭に出現する確率に対応するスコアは「0.6」となる。また、例えば、
図9中に示す例では、単語「○○」が先頭に出現する確率に対応するスコアは「0.62」となる。
【0051】
上述したように、
図1の例では、短縮タイトルの文字数の上限値は「全角13」文字であり、生成装置100は、文字数の上限値「全角13」を満たす木構造ST11(
図9参照)中の経路のうち、スコアが最大の経路を短縮タイトルとする。例えば、生成装置100は、コンテンツCT11のタイトルに対応する木構造ST11(
図9参照)を探索することにより、全角13文字以内で最大のスコアとなる経路に対応する単語をつなげた文字列を短縮タイトルとして生成する。
【0052】
例えば、
図1のタイトルリストAL11に示すように、生成装置100は、コンテンツCT11のタイトルに対応する短縮タイトルAT11を生成する。具体的には、生成装置100は、コンテンツCT11のタイトルに対応する「バス横転 直前時速95km超」とする短縮タイトルAT11を生成する。なお、短縮タイトルAT11中の「横転」と「直前」との間のスペース(空白)は半角スペースとなる。このように、生成装置100は、半角や全角等の種々の記号や文字等を適宜用いて短縮タイトル等の要約を生成する。また、
図9に示すように、単語「バス」が先頭に出現する確率に対応するスコアは「0.6」よりも、単語「○○」が先頭に出現する確率に対応するスコアは「0.62」の方が大きいが、「○○」が先頭となる短縮タイトルの経路のスコアよりも「バス」が先頭になる短縮タイトルAT11の経路のスコアの方が高いため、生成装置100は、短縮タイトルAT11を生成する。
【0053】
このように、生成装置100は、短縮タイトルAT11として、全角9文字、半角5文字を含む文字列を生成する。例えば、半角を全角の「0.5」文字分とした場合、短縮タイトルAT11の文字数は、「11.5」となる。このように、生成装置100は、全角13文字以内を満たす短縮タイトルAT11を生成する。上記例では、半角2文字が全角1文字に対応し各文字の横幅が変動しないフォントである場合を例示したが、生成装置100は、各文字に応じて横幅が変動するフォントである場合、各文字に応じて数値を変動させてもよい。
【0054】
また、
図1の例では、生成装置100は、コンテンツCT12のタイトルに対応する「東証時価総額 バブル期超す」とする短縮タイトルAT12を生成する。また、生成装置100は、コンテンツCT13のタイトルに対応する「A社サーチャージ7月も継続」とする短縮タイトルAT13を生成する。また、生成装置100は、コンテンツCT14のタイトルに対応する「20XX年の五輪開催国決定」とする短縮タイトルAT14を生成する。
【0055】
その後、生成装置100は、短縮タイトルを含むコンテンツを端末装置10に配信する(ステップS14)。具体的には、生成装置100は、短縮タイトルAT11〜AT14の各々を含むコンテンツCT11〜CT14を端末装置10へ配信する。
【0056】
そして、コンテンツCT11〜CT14を受信した端末装置10は、コンテンツCT11〜CT14を表示する(ステップS15)。
図1では、端末装置10は、所定のウェブページW11にコンテンツCT11〜CT14の各々に含まれる短縮タイトルAT11〜AT14や画像IM11〜IM14を表示する。
【0057】
上述したように、生成装置100は、要約生成モデルM11やユーザ関連情報に基づいて所定の入力から短縮タイトルを生成する。上記の例では、生成装置100は、要約生成モデルM11とユーザモデルとに基づいて、コンテンツのタイトルから短縮タイトルを生成する。これにより、生成装置100は、ユーザのユーザ属性情報やユーザが利用する端末装置10の端末情報やユーザのコンテキスト情報等の種々のユーザ関連情報に基づいて要約を生成することにより、ユーザに応じて適切な要約を生成することができる。
【0058】
なお、生成装置100は、上記に限らず種々の情報を適宜用いて短縮タイトルを生成してもよい。また、上記例では、1行になるように生成装置100が短縮タイトルを生成する例を示したが、生成装置100は、複数行に亘る短縮タイトル(要約)を生成してもよい。また、生成装置100は、1文字の横幅スコアも加味して、短縮タイトルを生成してもよい。例えば、生成装置100は、半角アルファベットの「m」や「w」は1文字とし、それ以外の半角アルファベットは0.5文字とする横幅スコアも加味して、短縮タイトルを生成してもよい。例えば、生成装置100は、0.6文字となる半角アルファベットのスコアの方が0.8文字となる半角アルファベットのスコアよりも高くなるように、スコアを算出してもよい。
【0059】
また、生成装置100は、端末装置10を利用するユーザの操作履歴に応じて、生成する短縮タイトルを変動させてもよい。例えば、生成装置100は、ユーザの操作履歴として配信したコンテンツ等へのユーザの操作に関する情報を用いてもよい。例えば、生成装置100は、ユーザの操作履歴中にスクロールが
速い等の情報が含まれる場合、そのユーザの性格をせっかちと推定し、通常よりも短い要約を生成してもよい。また、例えば、生成装置100は、ユーザの操作履歴中にスクロールが遅い等の情報が含まれる場合、そのユーザの性格をのんびりと推定し、通常よりも長い要約を生成してもよい。
【0060】
また、例えば、生成装置100は、ユーザの操作履歴として音声対話の履歴を用いてもよい。例えば、生成装置100は、音声対話において最後まで聞くユーザには、情報量が通常よりも多くなるように、要約を生成してもよい。また、生成装置100は、音声対話において途中で聞くのと止めるユーザには情報量が通常よりも情報量が通常よりも多くなるように、要約を生成してもよい。また、生成装置100は、上記の処理を音声対話でユーザによって長さを変動させるために用いてもよい。例えば、生成装置100は、上記の要約を音声対話の出力情報として用いてもよいし、音声対話要のモデルを用いて、音声対話の出力情報を生成してもよい。
【0061】
また、生成装置100は、端末装置10を利用するユーザの属性に応じて、生成する短縮タイトルを変動させてもよい。例えば、生成装置100は、端末装置10を利用するユーザの年代が60代や70代である場合、通常よりも短い要約を生成してもよい。また、例えば、生成装置100は、端末装置10を利用するユーザが10代や20代である場合、通常よりも長い要約を生成してもよい。
【0062】
また、生成装置100は、上述のような要約を生成するモデルを用いて、生成処理を行ってもよい。例えば、生成装置100は、端末装置10を利用するユーザが専門職である場合、通常よりも専門用語を含む確率が高くなるモデルを用いて要約を生成してもよい。また、例えば、生成装置100は、端末装置10を利用するユーザが主婦である場合、通常よりも専門用語を含む確率が低くなるモデルを用いて要約を生成してもよい。また、例えば、生成装置100は、端末装置10を利用するユーザの職種が短縮タイトルを生成する対象のコンテンツの内容に関する専門職である場合、通常より生成される短縮タイトルよりも専門用語のスコアが高くなるようなモデルを用いて、短縮タイトルを生成してもよい。例えば、生成装置100は、端末装置10を利用するユーザの職種が主婦である場合、専門用語のスコアが低くなるようなモデルを用いて、短縮タイトルを生成してもよい。
【0063】
また、生成装置100は、端末装置10を利用するユーザのコンテキストに応じて、生成する短縮タイトルを変動させてもよい。例えば、生成装置100は、端末装置10を利用するユーザのコンテキストが走っている等の忙しい状態に対応するコンテキストである場合、通常よりも短い要約を生成してもよい。また、例えば、生成装置100は、端末装置10を利用するユーザのコンテキストが仕事中に対応するコンテキストである場合、通常よりも短い要約を生成してもよい。また、例えば、生成装置100は、端末装置10を利用するユーザのコンテキストが家にいる等の十分に時間がある状態に対応するコンテキストである場合、通常よりも長い要約を生成してもよい。また、生成装置100は、上述のような要約を生成するモデルを用いて、生成処理を行ってもよい。
【0064】
また、生成装置100は、上記に限らず、目的に応じて種々のモデルを学習してもよい。例えば、生成装置100は、文書から文書、文書から最初の段落、文書から最初の文、文書からタイトル、文書から既存の短縮タイトル、最初の段落から最初の段落、最初の段落から最初の文等の対応関係に基づいてモデルを事前学習してもよい。また、生成装置100は、一般文書を用いて事前学習してもよい。例えば、生成装置100は、決定システム1における配信サービスの対象となるコンテンツに限らず、Web上の一般文書等の種々のコンテンツ(情報)を用いて学習してもよい。例えば、生成装置100は、一般文書から一般文書、一般文書からタイトル等の対応関係に基づいて、要約生成モデルを事前学習(プリトレーニング)してもよい。
【0065】
また、生成装置100は、上述したユーザ関連情報に限らず、目的に応じて種々の情報を用いてもよい。例えば、生成装置100は、ユーザ関連情報として、生成処理時の時間に関する情報や、気温に関する情報や、天気に関する情報等を用いてもよい。生成装置100は、ユーザが利用する端末装置10のCPU(Central Processing Unit)やメモリ使用率などの情報を用いてもよい。また、例えば、生成装置100は、ユーザ関連情報等の各情報をクラスタリングしておき、事前に要約(短縮タイトル)を生成してコンテンツ記憶部124に格納し、配信要求時に要求元のユーザに対応する短縮タイトルを配信してもよい。
【0066】
〔2.生成装置の構成〕
次に、
図2を用いて、実施形態に係る生成装置100の構成について説明する。
図2は、実施形態に係る生成装置100の構成例を示す図である。
図2に示すように、生成装置100は、通信部110と、記憶部120と、制御部130とを有する。なお、生成装置100は、生成装置100の管理者等から各種操作を取得する入力部(例えば、キーボードやマウス等)や、各種情報を表示するための表示部(例えば、液晶ディスプレイ等)を有してもよい。
【0067】
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、ネットワークと有線または無線で接続され、端末装置10や提供元装置や編集者端末との間で情報の送受信を行う。
【0068】
(記憶部120)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。実施形態に係る記憶部120は、
図2に示すように、編集情報記憶部121と、モデル情報記憶部122と、ユーザ関連情報記憶部123と、コンテンツ情報記憶部124とを有する。
【0069】
(編集情報記憶部121)
実施形態に係る編集情報記憶部121は、編集に関する各種情報(以下、「編集情報」ともいう)を記憶する。例えば、編集情報記憶部121は、所定の編集者により作成された短縮タイトルとその元となるタイトルに関する各種情報を記憶する。
図3に、実施形態に係る編集情報記憶部121の一例を示す。
図3に示す編集情報記憶部121は、「編集ID」、「元タイトル」、「短縮タイトル」といった項目を有する。
【0070】
「編集ID」は、元タイトルと短縮タイトルとの組み合わせを識別するための識別情報を示す。また、「元タイトル」は、所定の編集者が短縮タイトルを作成する際に元となったコンテンツのタイトルを示す。また、「短縮タイトル」は、対応する元タイトルから作成された短縮タイトルを示す。
【0071】
例えば、
図3に示す例において、編集ID「ED11」により識別される編集情報は、元タイトルが「タイトルA」であり、短縮タイトルが「短縮タイトルA」であることを示す。また、例えば、
図3に示す例において、編集ID「ED12」により識別される編集情報は、元タイトルが「タイトルB」であり、短縮タイトルが「短縮タイトルB」であることを示す。
【0072】
なお、編集情報記憶部121は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、編集情報記憶部121は、所定の編集者が短縮タイトルを作成する際に元となったコンテンツの記事に関する情報を記憶してもよい。また、編集情報記憶部121は、所定の編集者が作成した短縮タイトルとその元となったコンテンツに関する情報に限らず、生成装置100が生成した短縮タイトルとその元となったコンテンツに関する情報を記憶してもよい。例えば、編集情報記憶部121は、正例とする短縮タイトルと負例とする短縮タイトルとを識別する情報を、各短縮タイトルに関連付けて記憶してもよい。すなわち、編集情報記憶部121は、配信先のユーザにより選択された短縮タイトルを正例とし、配信先のユーザにより選択されなかった短縮タイトルを負例として記憶してもよい。生成装置100は、正例となる短縮タイトル、及び負例となる短縮タイトルを含む編集情報を用いて学習することにより、より精度よく要約(短縮タイトル)を生成するモデルを学習することができる。
【0073】
(モデル情報記憶部122)
実施形態に係るモデル情報記憶部122は、学習に関する情報を記憶する。例えば、モデル情報記憶部122は、生成処理により生成されたモデル情報を記憶する。
図4は、実施形態に係るモデル情報記憶部の一例を示す図である。
図4に示すモデル情報記憶部122は、モデル情報として、各モデルM11等に対応させて「素性1」〜「素性3」等といった項目を有する。
【0074】
例えば、
図4に示す例において、モデルM11に関するモデル情報は、素性1の重みが「0.5」、素性2の重みが「−0.4」、素性3の重みが「0.2」等であることを示す。例えば、モデルの素性(特徴量)がm次元のベクトルで表現される場合、素性数はm個になり、素性1〜素性mの重みが記憶される。
【0075】
なお、モデル情報記憶部122は、上記に限らず、目的に応じて種々のモデル情報を記憶してもよい。例えば、モデル情報記憶部122は、所定のユーザ分類ごとに生成されたモデルを記憶してもよい。例えば、モデル情報記憶部122は、ユーザの性別や年代等のユーザ分類ごとに生成されたモデルを記憶してもよい。また、例えば、モデル情報記憶部122は、ユーザが利用する端末装置に関する分類ごとに生成されたモデルを記憶してもよい。例えば、モデル情報記憶部122は、端末装置の型番や画面サイズ等の分類ごとに生成されたモデルを記憶してもよい。
【0076】
(ユーザ関連情報記憶部123)
実施形態に係るユーザ関連情報記憶部123は、ユーザに関連する各種情報を記憶する。
図5に、実施形態に係るユーザ関連情報記憶部123の一例を示す。
図5に示すユーザ関連情報記憶部123は、「ユーザID」、「属性情報」、「端末情報」、「コンテキスト情報」といった項目が含まれる。「属性情報」には、「年齢」、「性別」、「居住地」といった項目が含まれる。「端末情報」には、「型番」、「画面サイズ」、「フォント」といった項目が含まれる。「コンテキスト情報」には、「現在位置」、「加速度」、「コンテキスト」といった項目が含まれる。
【0077】
「ユーザID」は、ユーザを識別するための識別情報を示す。例えば、ユーザID「U1」により識別されるユーザは、
図1の例に示したユーザに対応する。「属性情報」は、ユーザの属性に関する各種項目を含む。「端末情報」は、ユーザが利用する端末装置10に関する各種項目を含む。「コンテキスト情報」は、ユーザのコンテキストに関する各種項目を含む。
【0078】
また、「年齢」は、ユーザIDにより識別されるユーザの年齢を示す。なお、「年齢」は、例えば35歳など、ユーザIDにより識別されるユーザの具体的な年齢であってもよい。また、「性別」は、ユーザIDにより識別されるユーザの性別を示す。また、「居住地」は、ユーザIDにより識別されるユーザの居住地を示す。
【0079】
また、「型番」は、ユーザIDにより識別されるユーザが利用する端末装置10の型番を示す。また、「画面サイズ」は、ユーザIDにより識別されるユーザが利用する端末装置10の画面サイズを示す。また、「フォント」は、ユーザIDにより識別されるユーザが利用する端末装置10において設定されたフォントに関する情報を示す。
【0080】
また、「現在位置」は、ユーザIDにより識別されるユーザの現在位置を示す。また、「加速度」は、ユーザIDにより識別されるユーザの加速度を示す。また、「コンテキスト」は、ユーザIDにより識別されるユーザのコンテキストを示す。
【0081】
例えば、
図5に示す例において、ユーザID「U1」により識別されるユーザの年齢は、「30代」であり、性別は、「男性」であり、居住地は、「地域A」であることを示す。
【0082】
なお、ユーザ関連情報記憶部123は、上記に限らず、目的に応じて種々の情報、例えば上記以外のデモグラフィック属性情報やサイコグラフィック属性情報等を記憶してもよい。また、生成装置100は、端末装置10から取得したユーザ情報に基づいて推定されるユーザに関する各種情報を、ユーザ関連情報記憶部123に記憶させてもよい。
【0083】
(コンテンツ情報記憶部124)
実施形態に係るコンテンツ情報記憶部124は、コンテンツ(記事)に関する各種情報を記憶する。
図6に、実施形態に係るコンテンツ情報記憶部124の一例を示す。
図6に示すコンテンツ情報記憶部124は、「コンテンツID」、「記事」、「タイトル」、「短縮タイトル」、「画像」といった項目を有する。
【0084】
「コンテンツID」は、コンテンツを識別するための識別情報を示す。「記事」は、コンテンツの記事を示す。「タイトル」は、コンテンツのタイトルを示す。「短縮タイトル」は、生成装置100により生成されたコンテンツの短縮タイトルを示す。「画像」は、コンテンツの画像を示す。
図6では「画像」に「IM11」といった概念的な情報が格納される例を示したが、実際には、画像情報、または、その格納場所を示すファイルパス名などが格納される。
【0085】
例えば、
図6に示す例において、コンテンツID「CT11」により識別される記事は、「X月Y日未明、○○県××市県道でZ社のバスが横転・・・直前のスピードは時速95kmを超え・・・」といった内容であることを示す。また、コンテンツID「CT11」により識別されるタイトルは、「X月Y日○○県でバス横転、直前のスピード、時速95km超」といった内容であることを示す。また、コンテンツID「CT11」により識別される短縮タイトル(
図1中の短縮タイトルAT11)は、「バス横転 直前時速95km超」といった内容であることを示す。
【0086】
なお、コンテンツ情報記憶部124は、上記に限らず、目的に応じて種々の情報を記憶してもよい。例えば、コンテンツ情報記憶部124は、コンテンツを取得した日時やコンテンツが作成された日時に関する情報を記憶してもよい。コンテンツ情報記憶部124は、各提供元に関する情報やコンテンツのカテゴリに関する情報を記憶してもよい。
【0087】
(制御部130)
図2の説明に戻って、制御部130は、コントローラ(controller)であり、例えば、CPUやMPU(Micro Processing Unit)等によって、生成装置100内部の記憶装置に記憶されている各種プログラム(生成プログラムの一例に相当)がRAMを作業領域として実行されることにより実現される。また、制御部130は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
【0088】
図2に示すように、制御部130は、取得部131と、学習部132と、算出部133と、生成部134と、配信部135とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、
図2に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
【0089】
(取得部131)
取得部131は、各種情報を取得する。例えば、取得部131は、外部の情報処理装置から情報を取得する。また、例えば、取得部131は、記憶部120から情報を取得する。また、取得部131は、端末装置10からコンテンツの配信要求を取得する。例えば、取得部131は、提供元装置からコンテンツの入稿を取得する。例えば、取得部131は、記事やタイトルを含むコンテンツの入稿を取得する。例えば、取得部131は、多数の提供元装置からコンテンツの入稿を取得してもよい。例えば、取得部131は、提供元装置から入稿されたコンテンツをコンテンツ情報記憶部124に記憶する。
【0090】
また、取得部131は、要約とその元となる情報とを対応付けた情報を取得する。
図1では、取得部131は、所定の編集者が利用する編集者端末から短縮タイトルと元となるタイトルとが対応付けられた要約一覧EL11を取得する。
【0091】
また、取得部131は、文字情報と、提供先となるユーザに関する情報であるユーザ関連情報とを取得する。例えば、取得部131は、所定のコンテンツに含まれるタイトルを文字情報として取得する。例えば、取得部131は、所定のコンテンツに含まれる記事を文字情報として取得する。
【0092】
例えば、取得部131は、ユーザが利用する端末装置10に関する端末情報をユーザ関連情報として取得する。例えば、取得部131は、ユーザの端末装置10における操作履歴に関する情報をユーザ関連情報として取得する。例えば、取得部131は、ユーザの属性情報をユーザ関連情報として取得する。例えば、取得部131は、ユーザのコンテキストに関する情報をユーザ関連情報として取得する。
【0093】
また、取得部131は、外部の情報処理装置から各種モデルを取得してもよい。例えば、取得部131は、外部の情報処理装置から要約生成モデルM11やユーザモデル等の種々のモデルを取得してもよい。なお、外部の情報処理装置から取得部131により要約生成に用いるモデルを取得する場合、生成装置100は、学習部132を有しなくてもよい。
【0094】
(学習部132)
学習部132は、各素性の重みを学習する。例えば、学習部132は、各種情報に基づいて学習によりモデルを生成する。例えば、学習部132は、第1文字情報と、第1文字情報の要約情報である第2文字情報とが対応付けられた情報によりモデルを学習する。
図1では、学習部132は、要約一覧EL11を用いた学習により、要約一覧EL11から要約生成モデルM11を生成する。
【0095】
例えば、学習部132は、要約一覧EL11に示す情報を編集情報記憶部121から取得し、要約生成モデルM11を学習する。例えば、学習部132は、要約一覧EL11に含まれる所定の編集者が作成した短縮タイトルとその元となるタイトルの組み合わせを用いて、要約生成モデルM11を学習する。例えば、学習部132は、要約一覧EL11に含まれる元タイトルや短縮タイトルに基づいて、リカレントニューラルネットワークや係り受け解析等の種々の従来技術を適宜用いて、要約生成モデルM11を学習する。例えば、学習部132は、学習により生成した要約生成モデルM11をモデル情報記憶部122に記憶する。例えば、学習部132は、以下のような疑似学習データを用いてモデルを学習してもよい。例えば、「A駅の人身事故でB線が遅延」を係り受け解析して、他の要素は「B線が遅延」にかかるので、統計情報などを加味して、係り受け木から必要なさそうな部分木をカットして「人身事故で山手線が遅延」などに要約した疑似学習データを用いる。例えば、このような疑似学習データは、種々の従来手法により生成することができる。そして、学習部132は、疑似学習データを用いて(ニューラルネットワーク)モデルを学習(プリトレーニング)した後、要約一覧EL11等を用いて学習することにより、精度の高いモデルを生成することができる。
【0096】
また、学習部132は、ユーザ関連情報に基づくモデル(ユーザモデル)を学習してもよい。例えば、学習部132は、上記式(5)の右辺中の関数「U」に対応するモデルを学習してもよい。例えば、学習部132は、各ユーザに対して所定の短縮タイトルを配信した場合において、その短縮タイトルをユーザが選択した場合に、その短縮タイトルとそのユーザのユーザ関連情報を正例として学習することにより、ユーザモデルを生成してもよい。
【0097】
例えば、学習部132は、ユーザが利用する端末装置10の端末情報に基づいて学習することにより、ユーザが利用する端末装置10に応じたユーザモデルを生成してもよい。例えば、学習部132は、ユーザの属性情報に基づいて学習することにより、ユーザのコンテキストに関する情報に応じたユーザモデルを生成してもよい。例えば、学習部132は、ユーザのコンテキストに関する情報に基づいて学習することにより、ユーザのコンテキストに関する情報に応じたユーザモデルを生成してもよい。
【0098】
(算出部133)
算出部133は、文字情報から要約を生成するために用いるスコアを算出する。例えば、算出部133は、要約生成モデルM11を用いて各単語の各位置におけるスコアを算出する。例えば、算出部133は、学習部132により生成されたユーザモデルを用いて各単語の各位置におけるスコアを算出する。
【0099】
例えば、算出部133は、上記式(5)により各位置における各単語のスコアを算出する。
図1に示す例では、算出部133は、ユーザ関連情報を加味したスコアを算出する。例えば、算出部133は、取得したユーザU1のユーザ関連情報を加味したスコアを算出する。例えば、算出部133は、上記式(5)を用いてユーザU1のユーザ関連情報を加味したスコアを算出する。
【0100】
(生成部134)
生成部134は、文字情報から要約を生成する。例えば、生成部134は、算出部133により算出されるスコアに基づいて、文字情報から要約を生成する。例えば、生成部134は、取得部131により取得したユーザ関連情報に基づいて、取得部131により取得した文字情報から要約情報を生成する。
【0101】
生成部134は、第1文字情報と、第1文字情報の要約情報である第2文字情報とが対応付けられた情報により学習されたモデルに基づいて、文字情報から要約情報を生成する。例えば、生成部134は、ユーザ関連情報とモデルとに基づいて算出されるスコアに基づいて、文字情報から要約情報を生成する。例えば、生成部134は、ユーザ関連情報により学習されたモデルに基づいて、文字情報から要約情報を生成する。例えば、生成部134は、端末情報に基づいて、文字情報から要約情報を生成する。例えば、生成部134は、操作履歴に基づいて、文字情報から要約情報を生成する。例えば、生成部134は、属性情報に基づいて、文字情報から要約情報を生成する。例えば、生成部134は、コンテキストに関する情報に基づいて、文字情報から要約情報を生成する。
図1の例では、生成部134は、コンテンツCT11のタイトルに対応する短縮タイトルAT11を生成する。また、生成部134は、コンテンツCT12〜CT14のタイトルの各々に対応する短縮タイトルAT12〜AT14を生成する。
【0102】
生成部134は、生成した要約情報をさらに要約した多重要約情報を生成する。例えば、生成部134は、記事から要約情報として記事のタイトルを生成し、タイトルから多重要約情報として短縮タイトルを生成する。なお、これらの点ついての詳細は後述する。
【0103】
(配信部135)
配信部135は、生成部134により生成された短縮タイトルを配信する。配信部135は、短縮タイトルを含むコンテンツを端末装置10に配信する。
図1の例では、配信部135は、短縮タイトルAT11〜AT14の各々を含むコンテンツCT11〜CT14を端末装置10へ配信する。
【0104】
〔3.モデルの学習〕
次に、
図7を用いて、実施形態に係る生成システム1におけるモデルの学習について説明する。
図7は、実施形態に係るモデルの学習の一例を示すフローチャートである。なお、
図7に示すフローチャートにより学習されるモデルは、どのようなモデルであってもよい。
【0105】
図7に示すように、生成装置100の取得部131は、学習に用いる情報を取得する(ステップS101)。例えば、取得部131は、所定の編集者が利用する編集者端末から短縮タイトルと元となるタイトルとが対応付けられた要約一覧EL11を取得する。その後、生成装置100の学習部132は、取得した情報に基づいて学習を行う(ステップS102)。例えば、学習部132は、要約一覧EL11を用いた学習により、要約一覧EL11から要約生成モデルM11を生成する。
【0106】
〔4.短縮タイトルの生成〕
次に、
図8を用いて、実施形態に係る生成システム1における要約の生成について説明する。
図8は、実施形態に係る短縮タイトルの生成の一例を示すフローチャートである。
【0107】
図8に示すように、生成装置100の取得部131は、コンテンツの配信要求を取得する(ステップS201)。例えば、取得部131は、端末装置10からコンテンツの配信要求を取得する。また、取得部131は、要求元のユーザ関連情報を取得する(ステップS202)。例えば、取得部131は、端末装置10からユーザ関連情報を取得する。
【0108】
その後、生成装置100の生成部134は、ユーザ関連情報に基づいて短縮タイトルの文字数の上限値を決定する(ステップS203)。生成部134は、端末装置10の画面サイズ「SZ11」及びフォント「FT11」に基づいて、短縮タイトルの文字数の上限値を決定する。例えば、生成部134は、短縮タイトルの文字数の上限値を「全角13」文字とする。また、取得部131は、短縮タイトルの生成に用いるモデルを取得する(ステップS205)。例えば、取得部131は、モデル情報記憶部132から要約生成モデルM11を取得する。
【0109】
その後、生成部134は、モデルと文字数の上限値とに基づいて短縮タイトルを生成する(ステップS204)。例えば、生成部134は、コンテンツCT11のタイトルに対応する短縮タイトルAT11を生成する。
図1の例では、生成部134は、コンテンツCT11のタイトルに対応する「バス横転 直前時速95km超」とする短縮タイトルAT11を生成する。
【0110】
〔5.短縮タイトルの生成〕
次に、
図9を用いて、実施形態に係る生成システム1における短縮タイトルの生成について説明する。
図9は、実施形態に係る短縮タイトルの生成の一例を示す図である。例えば、生成装置100は、ビーム探索の手法を用いる。なお、生成装置100は、木構造を用いる種々の手法を用いてもよい。例えば、生成装置100は、他の近似手法を用いてもよいし、ビタビ、A*などの厳密探索手法を用いてもよい。
【0111】
図9に示す例においては、入力情報IP11に示すように入力「INPUT」は、コンテンツCT11のタイトル「X月Y日○○県でバス横転、直前のスピード、時速95km超」である。また、
図9に示す例においては、文字数上限MX11に示すように上限値「MAX」は、「13」である。例えば、上限値「MAX」は、「全角13」文字とする。
図9中の木構造ST11は、「W1」の範囲に位置するノードは、先頭記号Sの次に遷移する単語、すなわち最初の単語に対応するノードを示す。また、「W2」の範囲に位置するノードは、「W1」の範囲に位置するノードに対応する単語から次に遷移する単語、すなわち2つめの単語に対応するノードを示す。また、「W3」の範囲に位置するノードは、「W3」の範囲に位置するノードに対応する単語から次に遷移する単語、すなわち3つめの単語に対応するノードを示す。
【0112】
図9に示す例では、生成装置100は、ユーザ関連情報を加味したスコアを算出する。例えば、生成装置100は、
図9中の算出式MF11に示す式により、ユーザU1のユーザ関連情報を加味したスコアを算出する。なお、
図9中の算出式MF11に示す式は、上記式(5)に対応する。
【0113】
例えば、生成装置100は、
図9中の算出式SC11に示す式により、ユーザがU1である場合のユーザ関連情報「U1」に対して短縮タイトルを生成する場合において、単語「バス」が先頭に出現する確率に対応するスコアを算出する。なお、
図9中の算出式SC11は上記式(7)に対応する。
図9の例では、生成装置100は、算出式SC11を用いて単語「○○」のスコアを最も高い「0.62」と算出する。また、
図9の例では、生成装置100は、算出式SC11を用いて単語「バス」のスコアを単語「○○」のスコアの次に高い「0.6」と算出する。また、
図9の例では、生成装置100は、算出式SC11を用いて単語「横転」のスコアを単語「バス」のスコアの次に高い「0.58」と算出する。また、
図9の例では、生成装置100は、算出式SC11を用いて単語「の」のスコアを「0.02」と算出する。
【0114】
また、生成装置100は、木構造ST11と、上記式(5)を用いて各単語の各々に対して算出されたスコア(確率)でソートし、ビーム幅(n=3)だけ残す(ステップS205−1)。具体的には、生成装置100は、スコアが上位である「○○」、「バス」、及び「横転」3つの単語に対応するノードのみを残し、その先のノードを探索する。そして、生成装置100は、合計の文字数がMAX「13」を超えるまで探索を繰り返す(ステップS205−2)。例えば、生成装置100は、
図9中の算出式MF12を用いて、親ノードの単語(「○○」、「バス」、及び「横転」)の次に各単語に遷移する確率に対応するスコアを算出する。これにより、生成装置100は、コンテンツCT11のタイトルに対応する「バス横転 直前時速95km超」とする短縮タイトルAT11を生成する。
【0115】
〔6.要約生成モデルの学習に用いる情報〕
上記例においては、要約生成モデルM11を生成する際に、所定の編集者が利用する編集者端末から短縮タイトルと元となるタイトルとが対応付けられた要約一覧EL11を用いる場合を示したが、要約生成モデルの学習には種々の情報が用いられてもよい。例えば、生成装置100は、要約生成モデルの学習にユーザ関連情報を用いてもよい。この点について、
図10を用いて説明する。
図10は、実施形態に係るユーザ関連情報を用いたモデルの生成の一例を示す図である。
図10中に示す端末装置10は、
図1のステップS15により生成装置100から配信されたコンテンツCT11〜CT14が表示された状態を示す。
【0116】
図10の例では、ユーザU1は、短縮タイトルAT11を含むコンテンツCT11を選択する(ステップS21)。例えば、ユーザU1は、指F1により短縮タイトルAT11が表示された部分をタッチすることにより、コンテンツCT11を選択する。また、例えば、端末装置10には、ユーザU1が短縮タイトルAT11を選択することにより、端末装置10の表示が遷移し、コンテンツCT11のタイトルや記事が表示される。
【0117】
その後、端末装置10は、生成装置100にユーザU1の行動情報を送信する(ステップS22)。例えば、端末装置10は、生成装置100にユーザU1の操作履歴に関する情報を送信する。
図10の例では、端末装置10は、生成装置100にユーザU1が短縮タイトルAT11を含むコンテンツCT11を選択したことを示す情報を送信する。
【0118】
ユーザU1の行動情報を取得した生成装置100は、コンテンツCT11の短縮タイトルAT11とその元となるタイトルの組み合わせを正例RL11として用いて学習を行う。例えば、生成装置100は、正例RL11やユーザU1のユーザ関連情報を用いて要約生成モデルM11を更新することにより、要約生成モデルM111を生成する(ステップS23)。なお、生成装置100は、正例RL11やユーザU1のユーザ関連情報を用いて新たに要約生成モデルを生成してもよい。このように、生成装置100は、ユーザ関連情報を用いて要約生成モデルの学習を行ってもよい。
【0119】
〔7.多重要約〕
上記例においては、文字情報から要約を生成する場合を示したが、生成した要約を用いてさらに要約を生成してもよい。例えば、生成装置100は、生成した要約をさらに要約した多重要約を生成してもよい。すなわち、生成装置100は、1つの文字情報から多重要約を行って、所望の要約を生成してもよい。この点について、
図11を用いて説明する。
図11は、実施形態に係る2段階の要約の生成の一例を示す図である。
【0120】
図11の例では、記事CR11は、「X月Y日未明、○○県××市県道でZ社のバスが横転・・・直前のスピードは時速95kmを超え・・・」といった内容を含む。生成装置100は、記事からタイトルを生成する要約生成モデルM31に記事CR11を入力することにより、記事CR11のタイトルを生成する(ステップS31)。例えば、生成装置100は、要約生成モデルM31により記事CR11からタイトルTL11を生成する。
【0121】
図11の例では、タイトルTL11は、「X月Y日○○県でバス横転、直前のスピード、時速95km超」という内容のタイトルである。生成装置100は、タイトルから短縮タイトルを生成する要約生成モデルM11にタイトルTL11を入力することにより、タイトルTL11の短縮タイトルを生成する(ステップS32)。例えば、生成装置100は、要約生成モデルM11によりタイトルTL11から短縮タイトルAT11を生成する。このように、生成装置100は、1つの文字情報を複数回要約生成モデルにより要約することにより、所望の要約を生成することができる。なお、上記の例では、生成装置100が複数の要約生成モデルを用いて複数回要約を生成する場合を示したが、生成装置100は、1つの要約生成モデルを用いて複数回要約を生成してもよい。例えば、生成装置100は、本文とそのタイトルとの組み合わせの第1データを用いて、モデルMを学習(プリトレーニング)し、その重みを初期値として、タイトルとその短縮タイトルとの組み合わせの第2データを用いて学習(ファインチューニング)させてもよい。この場合、生成装置100は、タイトルとその短縮タイトルとの組み合わせの第2データが少なく、本文とそのタイトルとの組み合わせの第1データが多い(例えば10倍以上多い)場合、第2データにはない組み合わせを含むが第データ1に基づいて、学習を行うことができる。また、生成装置100は、記事から短縮タイトルを生成する要約生成モデルを用いることにより、直接記事から短縮タイトルを生成してもよい。
【0122】
〔8.ユーザ関連情報に応じた短縮タイトルの変動〕
なお、生成装置100が生成する要約は、配信先となるユーザのユーザ関連情報に基づいて変動する。例えば、生成装置100はユーザが利用する端末装置10に応じて生成する要約を変動させてもよい。この点について、
図12を用いて説明する。
図12は、実施形態に係る端末装置に応じた短縮タイトルの生成の一例を示す図である。なお、
図12の例では、各端末装置10、11におけるフォントの設定は同様であるものとする。
【0123】
図12に示す例においては、生成装置100が、各端末装置10、11に対してコンテンツCT11に対応する短縮タイトルAT11を生成する場合を説明する。
図12の例では、生成装置100は、端末装置10に対して短縮タイトルAT11を生成する(ステップS41)。具体的には、生成装置100は、表示領域AR11に表示可能なように、コンテンツCT11のタイトルに対応する「バス横転 直前時速95km超」とする短縮タイトルAT11を生成する。なお、
図12中の端末装置10は、
図1中の端末装置10に対応しており、端末装置10の横幅をWD11とする。
【0124】
また、
図12の例では、生成装置100は、端末装置11に対して短縮タイトルAT41を生成する(ステップS42)。ここで、
図12の例では、端末装置11の横幅WD41は、端末装置10の横幅WD11よりも長いものとする。そのため、端末装置11においてコンテンツCT11の短縮タイトルが表示される表示領域AR41は、端末装置10においてコンテンツCT11の短縮タイトルが表示される表示領域AR11よりも横に長くなる。具体的には、端末装置11における表示領域AR41の横方向の長さL41は、端末装置10における表示領域AR11の横方向の長さL11よりも長くなる。つまり、表示領域AR41には表示領域AR11よりもより多くの文字を表示することができる。そのため、生成装置100は、短縮タイトルAT11よりも文字数の多い短縮タイトルAT41を生成する。
【0125】
具体的には、生成装置100は、表示領域AR41に表示可能なように、コンテンツCT11のタイトルに対応する「○○でバス横転 直前時速95km超」とする短縮タイトルAT41を生成する。この場合、生成装置100は、端末装置11に配信する短縮タイトルAT41には、短縮タイトルAT11に比べて「○○」という具体的な場所を示す単語を追加することができる。このように、生成装置100は、ユーザ関連情報に応じて、適切な要約を生成することができる。なお、生成装置100は、ユーザ関連情報記憶部123に記憶されたユーザ関連情報に限らず、種々のユーザ関連情報を用いて、要約を生成してもよい。例えば、生成装置100はユーザが一時的に変更した拡大率やフォントをリアルタイムに取得して要約を動的に変化させてもよい。
【0126】
〔9.効果〕
上述してきたように、実施形態に係る生成装置100は、取得部131と、生成部134と、を有する。取得部131は、文字情報と、提供先となるユーザに関する情報であるユーザ関連情報とを取得する。生成部134は、取得部131により取得したユーザ関連情報に基づいて、取得部131により取得した文字情報から要約情報を生成する。
【0127】
これにより、実施形態に係る生成装置100は、提供先となるユーザのユーザ関連情報を加味して文字情報から要約を生成することにより、ユーザに応じて適切な要約を生成することができる。このように、生成装置100は、ユーザのユーザ属性情報やユーザが利用する端末装置10の端末情報やユーザのコンテキスト情報等の種々のユーザ関連情報に基づいて要約を生成することにより、ユーザに応じて適切な要約を生成することができる。
【0128】
また、実施形態に係る生成装置100において、生成部134は、第1文字情報(実施形態においては「タイトル」。以下同じ)と、第1文字情報の要約情報である第2文字情報(実施形態においては「短縮タイトル」。以下同じ)とが対応付けられた情報により学習されたモデルに基づいて、文字情報から要約情報を生成する。
【0129】
これにより、実施形態に係る生成装置100は、第1文字情報と、第1文字情報の要約情報である第2文字情報とが対応付けられた情報により学習されたモデルを用いて要約を生成することにより、ユーザに応じて適切な要約を生成することができる。
【0130】
また、実施形態に係る生成装置100において、生成部134は、ユーザ関連情報とモデルとに基づいて算出されるスコアに基づいて、文字情報から要約情報を生成する。
【0131】
これにより、実施形態に係る生成装置100は、ユーザ関連情報とモデルとに基づいて算出されるスコアに基づいて要約を生成することにより、ユーザに応じて適切な要約を生成することができる。
【0132】
また、実施形態に係る生成装置100において、生成部134は、ユーザ関連情報により学習されたモデルに基づいて、文字情報から要約情報を生成する。
【0133】
これにより、実施形態に係る生成装置100は、ユーザ関連情報により学習されたモデルに基づいて要約を生成することにより、ユーザに応じて適切な要約を生成することができる。
【0134】
また、実施形態に係る生成装置100において、取得部131は、ユーザが利用する端末装置10に関する端末情報をユーザ関連情報として取得する。生成部134は、端末情報に基づいて、文字情報から要約情報を生成する。
【0135】
これにより、実施形態に係る生成装置100は、ユーザが利用する端末装置10に関する端末情報を用いて要約を生成することにより、ユーザに応じて適切な要約を生成することができる。
【0136】
また、実施形態に係る生成装置100において、取得部131は、ユーザの端末装置10における操作履歴に関する情報をユーザ関連情報として取得する。生成部134は、操作履歴に基づいて、文字情報から要約情報を生成する。
【0137】
これにより、実施形態に係る生成装置100は、ユーザの端末装置10における操作履歴に関する情報を用いて要約を生成することにより、ユーザに応じて適切な要約を生成することができる。
【0138】
また、実施形態に係る生成装置100において、取得部131は、ユーザの属性情報をユーザ関連情報として取得する。生成部134は、属性情報に基づいて、文字情報から要約情報を生成する。
【0139】
これにより、実施形態に係る生成装置100は、ユーザの属性情報を用いて要約を生成することにより、ユーザに応じて適切な要約を生成することができる。
【0140】
また、実施形態に係る生成装置100において、取得部131は、ユーザのコンテキストに関する情報をユーザ関連情報として取得する。生成部134は、コンテキストに関する情報に基づいて、文字情報から要約情報を生成する。
【0141】
これにより、実施形態に係る生成装置100は、ユーザのコンテキストに関する情報を用いて要約を生成することにより、ユーザに応じて適切な要約を生成することができる。
【0142】
また、実施形態に係る生成装置100において、生成部134は、生成した要約情報をさらに要約した多重要約情報を生成する。
【0143】
これにより、実施形態に係る生成装置100は、生成した要約情報をさらに要約した多重要約情報を生成することにより、ユーザに応じて所望の要約を生成することができる。
【0144】
また、実施形態に係る生成装置100において、取得部131は、所定のコンテンツに含まれる記事を文字情報として取得する。生成部134は、記事から要約情報として記事のタイトルを生成し、タイトルから多重要約情報として短縮タイトルを生成する。
【0145】
これにより、実施形態に係る生成装置100は、記事から要約情報として記事のタイトルを生成し、タイトルから多重要約情報として短縮タイトルを生成することにより、ユーザに応じて適切な短縮タイトルを生成することができる。
【0146】
〔10.ハードウェア構成〕
上述してきた実施形態に係る生成装置100は、例えば
図13に示すような構成のコンピュータ1000によって実現される。
図13は、生成装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
【0147】
CPU1100は、ROM1300またはHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
【0148】
HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、ネットワークNを介して他の機器からデータを受信してCPU1100へ送り、CPU1100が決定したデータをネットワークNを介して他の機器へ送信する。
【0149】
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、決定したデータを入出力インターフェイス1600を介して出力装置へ出力する。
【0150】
メディアインターフェイス1700は、記録媒体1800に格納されたプログラムまたはデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、かかるプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
【0151】
例えば、コンピュータ1000が実施形態に係る生成装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。コンピュータ1000のCPU1100は、これらのプログラムを記録媒体1800から読み取って実行するが、他の例として、他の装置からネットワークNを介してこれらのプログラムを取得してもよい。
【0152】
以上、本願の実施形態のいくつかを図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の行に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0153】
〔11.その他〕
また、上記実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
【0154】
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0155】
また、上述してきた実施形態は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。
【0156】
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
【解決手段】生成装置100は、取得部131と、生成部134とを有する。取得部131は、文字情報と、提供先となるユーザに関する情報であるユーザ関連情報とを取得する。生成部134は、取得部131により取得したユーザ関連情報に基づいて、取得部131により取得した文字情報から要約情報を生成する。例えば、生成部134は、第1文字情報と、第1文字情報の要約情報である第2文字情報とが対応付けられた情報により学習されたモデルに基づいて、文字情報から要約情報を生成する。