(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-03
(45)【発行日】2022-10-12
(54)【発明の名称】要約生成プログラム、要約生成装置および要約生成方法
(51)【国際特許分類】
G06F 40/56 20200101AFI20221004BHJP
G06F 16/335 20190101ALI20221004BHJP
【FI】
G06F40/56
G06F16/335
(21)【出願番号】P 2020027354
(22)【出願日】2020-02-20
【審査請求日】2021-02-10
(73)【特許権者】
【識別番号】501440684
【氏名又は名称】ソフトバンク株式会社
(74)【代理人】
【識別番号】110002147
【氏名又は名称】弁理士法人酒井国際特許事務所
(72)【発明者】
【氏名】石若 裕子
【審査官】滝谷 亮一
(56)【参考文献】
【文献】特開2010-128677(JP,A)
【文献】特開2017-054509(JP,A)
【文献】特開2016-118813(JP,A)
【文献】特開2016-164700(JP,A)
【文献】特開2017-037601(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/56
G06F 16/335
(57)【特許請求の範囲】
【請求項1】
ユーザの興味を示すユーザ情報と、処理対象のコンテンツとを取得する取得手順と、
前記処理対象のコンテンツに含まれる文章のうち、前記ユーザ情報が示す興味の対象が話題となっている文章である対象文を抽出する抽出手順と、
前記対象文に基づいて、処理対象のコンテンツの内容が要約された要約文を生成する生成手順と
をコンピュータに実行させ
、
前記生成手順は、前記対象文が構文解析された解析結果である木構造を構成するノードである文節のうち、前記興味の対象に対する前記ユーザの嗜好性に応じて前記ユーザの感情の変動に影響すると推測される単語を含む文節に基づいて、前記処理対象のコンテンツの内容が要約された要約文を生成する
ことを特徴とする要約生成プログラム。
【請求項2】
前記生成手順は、前記単語として、前記興味の対象に対する前記ユーザの嗜好性に応じて前記ユーザの感情の度合いを示す感情値を変動させると推測される単語を含む前記文節に基づいて、前記処理対象のコンテンツの内容が要約された要約文を生成する
ことを特徴とする請求項
1に記載の要約生成プログラム。
【請求項3】
前記生成手順は、前記単語のうち、現在時期に関連する単語を含む前記文節を優先的に用いて、前記処理対象のコンテンツの内容が要約された要約文を生成する
ことを特徴とする請求項
1または
2に記載の要約生成プログラム。
【請求項4】
ユーザの興味を示すユーザ情報と、処理対象のコンテンツとを取得する取得手順と、
前記処理対象のコンテンツに含まれる文章のうち、前記ユーザ情報が示す興味の対象が話題となっている文章である対象文を抽出する抽出手順と、
前記対象文に基づいて、処理対象のコンテンツの内容が要約された要約文を生成する生成手順と
をコンピュータに実行させ、
前記生成手順は、前記対象文が構文解析された解析結果である木構造を構成するノードである文節のうち、前記興味の対象に関連する単語であって、前記ユーザの嗜好性とより関連性の高い単語を含む文節を優先的に用いて、前記処理対象のコンテンツの内容が要約された要約文を生成する
ことを特徴とする要約生成プログラム。
【請求項5】
前記生成手順は、前記木構造に沿って、前記文節から分岐する分岐数が所定数以下となるように、前記文節をつなぐことで、前記処理対象のコンテンツの内容が要約された要約文を生成する
ことを特徴とする請求項
1~
4のいずれか1つに記載の要約生成プログラム。
【請求項6】
ユーザの興味を示すユーザ情報と、処理対象のコンテンツとを取得する取得手順と、
前記処理対象のコンテンツに含まれる文章のうち、前記ユーザ情報が示す興味の対象が話題となっている文章である対象文を抽出する抽出手順と、
前記対象文に基づいて、処理対象のコンテンツの内容が要約された要約文を生成する生成手順と、
前記興味の対象に対する前記ユーザの嗜好性に基づいて、感情の種別ごとに、前記要約文の内容に対する感情の度合いを示す感情値を推定する推定手順と
をコンピュータに実行させるための要約生成プログラム。
【請求項7】
前記推定手順は、前記ユーザの感情の種別として、肯定的な感情および否定的な感情それぞれについて、前記要約文の内容に対する感情の度合いを示す感情値を推定する
ことを特徴とする請求項
6に記載の要約生成プログラム。
【請求項8】
前記推定手順は、固有名詞が除外された任意の文章と、当該任意の文章に対してユーザが評価した値であって、当該任意の文章の内容に対する感情の度合いを示す感情値との関係性が学習されたモデルに基づいて、前記要約文の内容に対する感情の度合いを示す感情値を推定する
ことを特徴とする請求項
6または
7に記載の要約生成プログラム。
【請求項9】
前記推定手順は、前記モデルとして、肯定的な感情および否定的な感情うち、ユーザの嗜好性と要約文の内容との関係性に応じた感情ほど高い感情値を出力するように学習されたモデルに基づいて、前記要約文の内容に対する感情の度合いを示す感情値を推定する
ことを特徴とする請求項
8に記載の要約生成プログラム。
【請求項10】
前記生成手順は、前記対象文が構文解析された解析結果である木構造に基づいて、前記処理対象のコンテンツの内容が要約された要約文を生成する
ことを特徴とする請求項
6~
9のいずれか1つに記載の要約生成プログラム。
【請求項11】
前記生成手順は、前記木構造を構成するノードである文節に基づいて、前記処理対象のコンテンツの内容が要約された要約文を生成する
ことを特徴とする請求項
10に記載の要約生成プログラム。
【請求項12】
前記抽出手順は、前記興味の対象として、前記文章に含まれる固有名詞が指し示す対象であって、前記ユーザ情報が示す興味の対象が話題となっている文章を前記対象文として抽出する
ことを特徴とする請求項1
~11のいずれか1つに記載の要約生成プログラム。
【請求項13】
前記抽出手順は、前記文章に含まれる異なる複数の固有名詞のうち同義の固有名詞が指し示す対象であって、前記ユーザ情報が示す興味の対象が話題となっている文章を前記対象文として抽出する
ことを特徴とする請求項
12に記載の要約生成プログラム。
【請求項14】
前記抽出手順は、前記処理対象のコンテンツに含まれる文章のうち、主語が含まれない文章について主語を推定し、推定した主語が、前記同義の固有名詞が指し示す対象となっている文章を前記対象文として抽出する
ことを特徴とする請求項
13に記載の要約生成プログラム。
【請求項15】
ユーザの興味を示すユーザ情報と、処理対象のコンテンツとを取得する取得部と、
前記処理対象のコンテンツに含まれる文章のうち、前記ユーザ情報が示す興味の対象が話題となっている文章である対象文を抽出する抽出部と、
前記対象文に基づいて、処理対象のコンテンツの内容が要約された要約文を生成する生成部と
を有
し、
前記生成部は、前記対象文が構文解析された解析結果である木構造を構成するノードである文節のうち、前記興味の対象に対する前記ユーザの嗜好性に応じて前記ユーザの感情の変動に影響すると推測される単語を含む文節に基づいて、前記処理対象のコンテンツの内容が要約された要約文を生成する
ことを特徴とする要約生成装置。
【請求項16】
ユーザの興味を示すユーザ情報と、処理対象のコンテンツとを取得する取得部と、
前記処理対象のコンテンツに含まれる文章のうち、前記ユーザ情報が示す興味の対象が話題となっている文章である対象文を抽出する抽出部と、
前記対象文に基づいて、処理対象のコンテンツの内容が要約された要約文を生成する生成部と
を有し、
前記生成部は、前記対象文が構文解析された解析結果である木構造を構成するノードである文節のうち、前記興味の対象に関連する単語であって、前記ユーザの嗜好性とより関連性の高い単語を含む文節を優先的に用いて、前記処理対象のコンテンツの内容が要約された要約文を生成する
ことを特徴とする要約生成装置。
【請求項17】
ユーザの興味を示すユーザ情報と、処理対象のコンテンツとを取得する取得部と、
前記処理対象のコンテンツに含まれる文章のうち、前記ユーザ情報が示す興味の対象が話題となっている文章である対象文を抽出する抽出部と、
前記対象文に基づいて、処理対象のコンテンツの内容が要約された要約文を生成する生成部と、
前記興味の対象に対する前記ユーザの嗜好性に基づいて、感情の種別ごとに、前記要約文の内容に対する感情の度合いを示す感情値を推定する推定部と
を有することを特徴とする要約生成装置。
【請求項18】
要約生成装置が実行する要約生成方法であって、
ユーザの興味を示すユーザ情報と、処理対象のコンテンツとを取得する取得工程と、
前記処理対象のコンテンツに含まれる文章のうち、前記ユーザ情報が示す興味の対象が話題となっている文章である対象文を抽出する抽出工程と、
前記対象文に基づいて、処理対象のコンテンツの内容が要約された要約文を生成する生成工程と
を含
み、
前記生成工程は、前記対象文が構文解析された解析結果である木構造を構成するノードである文節のうち、前記興味の対象に対する前記ユーザの嗜好性に応じて前記ユーザの感情の変動に影響すると推測される単語を含む文節に基づいて、前記処理対象のコンテンツの内容が要約された要約文を生成する
ことを特徴とする要約生成方法。
【請求項19】
要約生成装置が実行する要約生成方法であって、
ユーザの興味を示すユーザ情報と、処理対象のコンテンツとを取得する取得工程と、
前記処理対象のコンテンツに含まれる文章のうち、前記ユーザ情報が示す興味の対象が話題となっている文章である対象文を抽出する抽出工程と、
前記対象文に基づいて、処理対象のコンテンツの内容が要約された要約文を生成する生成工程と
を含み、
前記生成工程は、前記対象文が構文解析された解析結果である木構造を構成するノードである文節のうち、前記興味の対象に関連する単語であって、前記ユーザの嗜好性とより関連性の高い単語を含む文節を優先的に用いて、前記処理対象のコンテンツの内容が要約された要約文を生成する
ことを特徴とする要約生成方法。
【請求項20】
要約生成装置が実行する要約生成方法であって、
ユーザの興味を示すユーザ情報と、処理対象のコンテンツとを取得する取得工程と、
前記処理対象のコンテンツに含まれる文章のうち、前記ユーザ情報が示す興味の対象が話題となっている文章である対象文を抽出する抽出工程と、
前記対象文に基づいて、処理対象のコンテンツの内容が要約された要約文を生成する生成工程と、
前記興味の対象に対する前記ユーザの嗜好性に基づいて、感情の種別ごとに、前記要約文の内容に対する感情の度合いを示す感情値を推定する推定手順と
を含むことを特徴とする要約生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、要約生成プログラム、要約生成装置および要約生成方法に関する。
【背景技術】
【0002】
近年、インターネットの飛躍的な普及に伴い、ネットワークを介して様々なコンテンツの提供が盛んに行われている。また、ユーザにより適したコンテンツを提供する技術が知られている。
【0003】
例えば、特許文献1では、サーバから提供される任意のコンテンツの表示スタイルをユーザの嗜好に合わせてパーソナライズ化する技術が提案されている。
【先行技術文献】
【特許文献】
【0004】
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、上記の従来技術では、必ずしもユーザの趣向が反映された要約文を生成することができるとは限らない。例えば、上記の従来技術では、端末から要求があったコンテンツをサーバから取得し、取得したコンテンツに対して嗜好データに対応する部分をパーソナライズ化し、パーソナライズ化されたコンテンツと取得したコンテンツを切り替えて端末に送信する。
【0006】
このように、上記の従来技術は、ユーザの嗜好に合わせてコンテンツをパーソナライズ化するものに過ぎず、文字情報から要約文を生成するものではない。したがって、上記の従来技術では、必ずしもユーザの趣向が反映された要約文を生成することができるとは限らない。
【0007】
本願は、上記に鑑みてなされたものであって、ユーザの趣向が反映された要約文を生成することを目的とする。
【課題を解決するための手段】
【0008】
本願に係る要約生成プログラムは、ユーザの興味を示すユーザ情報と、処理対象のコンテンツとを取得する取得手順と、前記処理対象のコンテンツに含まれる文章のうち、前記ユーザ情報が示す興味の対象が話題となっている文章である対象文を抽出する抽出手順と、前記対象文に基づいて、処理対象のコンテンツの内容が要約された要約文を生成する生成手順とをコンピュータに実行させる。
【発明の効果】
【0009】
実施形態の一態様によれば、ユーザの趣向が反映された要約文を生成することができる。
【図面の簡単な説明】
【0010】
【
図1】
図1は、実施形態に係る要約生成処理の全体像を示す図である。
【
図2】
図2は、実施形態に係る要約生成装置によって行われる要約生成処理の一例を示す図である。
【
図3】
図3は、木構造を用いた要約生成処理の一例を示す図である。
【
図4】
図4は、実施形態に係る要約生成装置の構成例を示す図である。
【
図5】
図5は、実施形態に係るポジネガマップの一例を示す図である。
【
図6】
図6は、実施形態に係る要約生成処理手順を示すフローチャートである。
【
図7】
図7は、要約生成装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
【発明を実施するための形態】
【0011】
以下に、本願に係る要約生成プログラム、要約生成装置および要約生成方法を実施するための形態(以下、「実施形態」と呼ぶ)について図面を参照しつつ詳細に説明する。なお、この実施形態により本願に係る要約生成プログラム、要約生成装置および要約生成方法が限定されるものではない。また、以下の各実施形態において同一の部位には同一の符号を付し、重複する説明は省略される。
【0012】
〔1.実施形態に係る要約生成処理の概要〕
現在、ロボットをはじめ様々な機器などにAI(実行知能)が搭載されるようになってきており、ユーザ個々により適応した対話やリコメンデーションおよび文章要約を実現することが期待されている。
【0013】
また、例えば、所定期間分のコンテンツ(例えば、記事コンテンツやメール)を個人の趣向に合わせて要約することが出来れば、ユーザは自身が興味のあるコンテンツだけを容易に見つけだすことができるようになり便利である。
【0014】
また、例えば、配信候補のコンテンツ(例えば、記事コンテンツ)を配信先のユーザ個々の趣向に合わせて要約することができれば、例えば、コンテンツが表示される配信面をよりパーソナライズ化することがでこるため、ユーザに対する興味を効果的に高めることができる配信面を実現することができるようになると考えられる。
【0015】
したがって、実施形態に係る要約生成処理は、上記のような前提を踏まえて、文章群のうち、ユーザによる興味の対象が話題となっている文章を特定することで、特定した文章を用いて、このユーザの趣向が反映された要約文を生成するものである。
【0016】
具体的には、実施形態に係る要約生成処理は、ユーザの興味を示すユーザ情報、および、処理対象のコンテンツを取得し、取得した処理対象のコンテンツに含まれる文章のうち、ユーザ情報が示す興味の対象が話題となっている文章である対象文を抽出する。そして、抽出した対象文に基づいて、処理対象のコンテンツの内容が要約された要約文を生成する。
【0017】
また、
図1および
図2で詳細に説明するが、実施形態に係る要約生成処理では、次のようにして対象文を抽出する。実施形態に係る要約生成処理では、ユーザの興味の対象として、処理対象のコンテンツに含まれる固有名詞が指し示す対象であって、ユーザが興味を有する対象が話題となっている文章を対象文として抽出する。より詳細には、実施形態に係る要約生成処理では、表現の異なる複数の固有名詞のうち同義の固有名詞を1つの正式な固有名詞に統一(例えば、名寄せ)し、この正式な固有名詞が示す対象(例えば、チームや人物など)であって、ユーザが興味を有する対象が話題となっている文章を対象文として抽出する。
【0018】
また、実施形態に係る要約生成処理では、処理対象のコンテンツに含まれる文章のうち、主語が含まれない文章について主語を推定する。そして、主語を推定した文章のうち、その主語が、上記同義の固有名詞(1つの正式な固有名詞)が指し示す対象となっている文章を対象文として抽出する。
【0019】
〔2.要約生成プログラムおよび要約生成装置について〕
実施形態に係る要約生成プログラムは、上述した実施形態に係る要約生成処理をコンピュータに実行させるためのプログラムである。具体的には、実施形態に係る要約生成プログラムは、ユーザの興味を示すユーザ情報と、処理対象のコンテンツとを取得する取得手順と、処理対象のコンテンツに含まれる文章のうち、ユーザ情報が示す興味の対象が話題となっている文章である対象文を抽出する抽出手順と、対象文に基づいて、処理対象のコンテンツの内容が要約された要約文を生成する生成手順とをコンピュータに実行させるためのプログラムである。
【0020】
また、本実施形態では、このようなコンピュータの一例として、要約生成装置100を例に挙げる。すなわち要約生成装置100は、実施形態に係る要約生成プログラムの制御に従って、ユーザの興味を示すユーザ情報、および、処理対象のコンテンツを取得し、取得した処理対象のコンテンツに含まれる文章のうち、ユーザ情報が示す興味の対象が話題となっている文章である対象文を抽出する。そして、要約生成装置100は、抽出した対象文に基づいて、処理対象のコンテンツの内容が要約された要約文を生成する。
【0021】
また、本実施形態では、要約生成装置100は、サーバ装置やクラウドシステム等により実現されるものとする。一方で、要約生成プログラムが実行されるコンピュータは、例えば、エンドユーザによって利用される情報処理端末であってもよく、このような情報処理端末としては、スマートフォンや、タブレット型端末や、ノート型PC(Personal Computer)や、デスクトップPCや、携帯電話機や、PDA(Personal Digital Assistant)等が挙げられる。
【0022】
〔3.要約生成処理の全体像〕
ここからは、
図1を用いて、実施形態に係る要約生成装置100によって行われる要約生成処理の全体像について説明する。
図1は、実施形態に係る要約生成処理の全体像を示す図である。また、本実施形態では、処理対象のコンテンツを「スポーツ記事による記事コンテンツ」とする。そして、本実施形態では、ユーザを特定のスポーツ(例えば、野球)におけるチームのファン(あるいは、特定のスポーツ選手のファン)であるものとして、このユーザの興味や趣向が反映された要約を生成する場面を一例に挙げる。
【0023】
一方で、実施形態に係る要約生成処理は、スポーツ記事に限定されず、例えば、ニュース記事、ブログなど如何なる記事にも適用可能である。また、実施形態に係る要約生成処理は、記事に限定されず、例えば、メールコンテンツ(メール本文の要約)や書籍(書籍本文の要約)にも適用可能である。
【0024】
まず、要約生成装置100は、ユーザの興味を示すユーザ情報を取得する。例えば、要約生成装置100は、どのようなこと(人、もの、イベント、仕事など)に興味があるか、自身にとってどのようなことが重要であるか、どのようなものが好きであるか、といった、興味に関する情報を示すユーザ情報の登録を受け付けることにより、ユーザの興味を示すユーザ情報を取得する。
図1の例では、要約生成装置100は、ユーザU1からユーザ情報の登録を受け付けたことにより、ユーザU1からユーザU1の興味を示すユーザ情報を取得している。
【0025】
具体的には、
図1の例では、要約生成装置100は、「チームTa」のファン(「チームTa」に興味がある、あるいは、「チームTa」が好き)といったユーザ情報をユーザU1から取得している。また、
図1の例では、要約生成装置100は、「PY1選手」のファン(「PY1選手」に興味がある、あるいは、「PY1選手」が好き)といったユーザ情報をユーザU1から取得している。
【0026】
なお、要約生成装置100は、ユーザ登録によりユーザ情報を取得するのではなく、ユーザの行動を示す行動情報(例えば、ユーザの位置情報、ユーザの購買履歴、ユーザの閲覧履歴)などから、ユーザの興味を推定し、推定した情報をユーザの興味を示すユーザ情報として取得してもよい。また、このような推定ができるよう、要約生成装置100は、ユーザの行動情報(行動履歴)が記憶される記憶部(不図示)を有してもよいし、所定の外部サーバから行動情報を取得してもよい。
【0027】
次に、要約生成装置100は、処理対象のコンテンツを取得する。例えば、要約生成装置100は、処理対象のコンテンツとして、所定期間(例えば、過去1ヶ月分)の記事コンテンツ群を取得する。例えば、「チームTa」が野球チームであり、「PY1選手」が野球選手であるとすると、要約生成装置100は、野球に関する記事が掲載されたスポーツ記事コンテンツのコンテンツ群を取得する。また、要約生成装置100は、所定期間の新聞記事を取得してもよいし、インターネット配信された所定期間分のウェブコンテンツを取得してもよい。
図1の例では、要約生成装置100は、このような処理対象のコンテンツを、外部サーバSVから取得している。
【0028】
なお、要約生成装置100が、どこから処理対象のコンテンツを取得するかは任意であってよい。例えば、ユーザが所定期間分のメール本文(処理対象のコンテンツの一例)の要約を希望する場合、要約生成装置100は、この所定期間分のメール本文を示す文章情報を登録をユーザから受け付けてもよい。また、ユーザが所定期間分のメール本文(処理対象のコンテンツの一例)の要約を希望する場合、要約生成装置100は、この所定期間分のメール本文を示す文章情報を所定のメールサーバから取得してもよい。
【0029】
このようにして、要約生成装置100は、ユーザの興味を示すユーザ情報、および、処理対象のコンテンツを取得すると、実施形態に係る要約生成処理を開始する。まず、要約生成装置100は、ユーザU1のユーザ情報に基づいて、取得した記事コンテンツ群の中から、ユーザU1の興味に関する記事コンテンツを取得することにより、処理対象のコンテンツの絞り込みを行う(ステップS1)。例えば、要約生成装置100は、記事コンテンツ群の中から、ユーザU1の興味の対象に関する記事コンテンツを取得する。
図1の例によると、ユーザU1の興味の対象は、「チームTa」および「PY1選手」である。また、「チームTa」および「PY1選手」は、ともに固有名詞である。
【0030】
したがって、要約生成装置100は、記事コンテンツ群の中から、「チームTa」および「PY1選手」に関する記事コンテンツを取得する。例えば、要約生成装置100は、記事コンテンツ群の中から、ヘッドライン(見出し)あるいは本文に、「チームTa」および「PY1選手」を含む記事コンテンツを取得する。
図1では簡単な例として、要約生成装置100は、1つの記事コンテンツである記事コンテンツC1を取得したものとする。よってこの時点で、処理対象のコンテンツは、記事コンテンツC1に絞り込まれることになる。なお、興味の対象が固有名詞ではなく例えば一般用語であると判定される場合、要約生成装置100は、判定した一般用語に最も近しい固有名詞を推定してもよいし、固有名詞を登録するようユーザに警告してもよい。
【0031】
また、後に示すが、記事コンテンツC1には、本文を形成する複数の文章が含まれているが、要約するうえで不必要な情報も含まれる(例えば、写真など)。このため、次に、要約生成装置100は、記事コンテンツC1に対してクレンジング処理(データクレンジング)を行うことにより、記事コンテンツC1から不必要な情報を除去する(ステップS2)。要約生成装置100は、このようなクレンジング処理として、任意の従来技術を採用することができる。
【0032】
次に、要約生成装置100は、記事コンテンツC1に含まれる文章に対して、固有名詞のマージを行う(ステップS3)。ここで、人物「PY1」を例に挙げると、記事コンテンツC1中では、「PY1」という人物が様々な表現で表記される場合がある。例えば、記事コンテンツC1中のある文章の主語では「チームTaのPY1選手」と表記される一方で、記事コンテンツC1中の別の文章の主語では「PY1選手」と表記される場合がある。また、「PY1選手」は、ファンからは特定のあだ名で呼ばれている場合、記事コンテンツC1中のある文章の主語では、このあだ名が用いられる場合がある。
【0033】
このように、「PY1」という人物は、複数の異なる表現で表記される場合があるが、全て一人の人物に名寄せすることができる。例えば、「チームTaのPY1選手」、および、「PY1選手」は、一人の人物「PY1」に名寄せすることができる。すなわち、「チームTaのPY1選手」、および、「PY1選手」は、ともに一人の人物「PY1」を指すという点で表現は異なるが同義である。
【0034】
このようなことから、要約生成装置100は、ユーザU1の興味の対象を示す固有名詞が、異なる複数の固有名詞で表記される場合があるような固有名詞であるか否かを判定する。そして、要約生成装置100は、異なる複数の固有名詞で表記される場合があると判定した場合、記事コンテンツC1に含まれる文章のうち、これら複数の固有名詞それぞれを主語とする文章を特定する。そして、要約生成装置100は、特定した文章の主語に対して、異なる複数の固有名詞に対する最も正式な固有名詞(例えば、本名)をマージする。
図1の例では、要約生成装置100は、「チームTaのPY1選手」を主語とする文章において、この主語に対して「PY1」をマージする。また、
図1の例では、要約生成装置100は、「PY1選手」を主語とする文章において、この主語に対して「PY1」をマージする。
【0035】
なお、ユーザの興味の対象を示す固有名詞は他にどのような表現で表記されることがあるか、また、ユーザの興味の対象を示す固有名詞を含め表現の異なる複数の固有名詞であって、同義の固有名詞は、どのような固有名詞に統一することができるかという情報は、専用の固有名詞辞書に示される。このため、要約生成装置100は、この固有名詞辞書と、ユーザの興味の対象を示す固有名詞とを比較することで、正式な固有名詞のマージを行うことができる。また、要約生成装置100は、このような固有名詞のマージを行うことで、本来であれば、ユーザの興味の対象が話題となっている文章であるにも拘らず、この文章が要約対象から除外されてしまうことを防止することができる。この結果、要約生成装置100は、ユーザの趣向が効果的に反映された要約文を生成することができる。
【0036】
次に、要約生成装置100は、記事コンテンツC1に含まれる文章のうち、主語が含まれない文章に対して、主語を推定する(ステップS4)。日本語の文章では、文脈から明らかに主語を見分けることが可能な場合、あえて主語を省略した文章が用いられることがある。この場合、省略されている主語は「暗黙の主語」などと呼ばれる。ステップS4では、要約生成装置100は、記事コンテンツC1に含まれる文章のうち、主語が含まれない文章に対して、この暗黙の主語を推定する。
【0037】
例えば、要約生成装置100は、記事コンテンツC1に含まれる文章のうち、主語が含まれない文章が存在するか否かを判定し、主語が含まれない文章を判定できた場合には、この文章について暗黙の主語を推定する。例えば、要約生成装置100は、主語が含まれない文章を判定できた場合には、この文章よりも前の文章の主語(固有名詞マージ後の主語)に基づいて、暗黙の主語を推定する。そして、このような暗黙の主語の推定により、ユーザの興味の対象が話題となっている文章であるにも拘らず、この文章が要約対象から除外されてしまうことを防止することができる。
【0038】
次に、要約生成装置100は、記事コンテンツC1に含まれる文章のうち、ユーザU1の興味の対象が話題となっている文章である対象文を抽出する(ステップS5)。例えば、要約生成装置100は、記事コンテンツC1に含まれる文章のうち、ユーザU1の興味の対象を主語とする文章を対象文として抽出する。例えば、要約生成装置100は、記事コンテンツC1に含まれる文章のうち、ステップS3で固有名詞のマージを行った文章を対象文として抽出する。また、例えば、要約生成装置100は、ステップS4で暗黙の主語が推定された文章のうち、ステップS3でマージされた固有名詞が暗黙の主語として推定された文章を対象文として抽出する。
【0039】
次に、要約生成装置100は、任意のアルゴリズムに従って、対象文に対して構文解析を行うことで、対象文の木構造を得る(ステップS6)。係る木構造は、構文解析による解析結果である。また、係る木構造は、対象文を構成する文節をノードとする木構造である。木構造の一例については
図3で説明する。
【0040】
また、要約生成装置100は、木構造に含まれる文節(ノード)に基づいて、記事コンテンツC1の内容が要約された要約文を生成する(ステップS7)。例えば、要約生成装置100は、木構造に沿って、文節から分岐する分岐数が所定数以下となるように、文節をつなぐことで、記事コンテンツC1の内容が要約された要約文を生成する。
【0041】
ここで、話題や記事が、個人にとってポジティブな印象を与えるか(すなわち、肯定的な感情に変化させるか)、ネガティブな印象を与えるか(すなわち、否定的な感情に変化させるか)は、各個人の興味や嗜好性(好み)に大きく依存する。例えば、あるチームが勝利した記事は、そのチームのファンに対してはポジティブ感情にさせる記事であるが、相手チームのファンに対してはネガティブ感情にさせる記事となる。
【0042】
より詳細な一例を挙げる。例えば、「チームTa」が勝利した記事は、「チームTa」のファンに対してポジティブ感情にさせ、また、「チームTa」が敗北した記事は、アンチ「チームTa」に対してポジティブ感情にさせる。一方、「チームTa」が敗北した記事は、「チームTa」のファンに対してネガティブ感情にさせ、また、「チームTa」が勝利した記事は、アンチ「チームTa」に対してネガティブ感情にさせる。
【0043】
このようなことから、ユーザに提供される情報が、そのユーザに対してポジティブな感情を与えるか、あるいは、ネガティブな感情を与えるかを効果的に判定することができれば、将来的に次のようなことが可能となると考えられる。例えば、ユーザに提供される情報を、ポジティブ感情になる情報、ネガティブ感情になる情報とに分類することができるようになり、これによりユーザは、ポジティブ感情になる情報、すなわち自身にとってより重要度の高い情報のみを容易に見分けることができるようになる。また、個人適応型対話型パーソナルエージェントシステムにおいて、より個人に適応した対話を実現することが可能となる。
【0044】
このような前提のもと、要約生成装置100は、ユーザU1の興味の対象に対するユーザU1の嗜好性に基づいて、感情の種別(ポジティブ感情、ネガティブ感情)ごとに、ステップS7で生成した要約文の内容に対する感情の度合いを示す感情値を推定する(ステップS8)。例えば、要約生成装置100は、ユーザU1の嗜好性に基づいて、ステップS7で生成した要約文の内容に対する、ポジティブ感情を示す感情値、および、ネガティブ感情を示す感情値をそれぞれ推定する。以下、ポジティブ感情を示す感情値、および、ネガティブ感情を示す感情値を「PN値」と略表記する場合がある。
【0045】
また、要約生成装置100は、どのような表現の文章がユーザに対してどれほどポジティブにさせるか、どれほどネガティブにさせるかといった、文章とPN値との関係性が学習されたモデルを用いて、今回の要約文の内容に対するPN値を推定するが、この詳細については後述する。
【0046】
そして、要約生成装置100は、ユーザU1に対して、PN値付きの要約文を出力する(ステップS9)。例えば、要約生成装置100は、PN値付きの要約文がユーザU1の端末装置に表示されるよう、PN値付きの要約文を係る端末装置に送信する。
【0047】
さて、これまで
図1を用いて説明してきたように、要約生成装置100は、実施形態に係る要約生成プログラムに従って、ユーザの興味を示すユーザ情報、および、処理対象のコンテンツを取得し、取得した処理対象のコンテンツに含まれる文章のうち、ユーザ情報が示す興味の対象が話題となっている文章である対象文を抽出する。そして、要約生成装置100は、抽出した対象文に基づいて、処理対象のコンテンツの内容が要約された要約文を生成する。
【0048】
これにより、実施形態に係る要約生成プログラムは、ユーザの趣向が反映された要約文を生成することができる。この結果、実施形態に係る要約生成プログラムは、ユーザに対する興味を効果的に高めることができる要約文を生成することができるようになる。
【0049】
〔4.要約生成処理の一例〕
ここからは、
図2を用いて、実施形態に係る要約生成装置100によって行われる要約生成処理の一例について説明する。具体的には、
図2では、記事コンテンツC1に含まれる文章の具体例を用いて、
図1で示した流れに応じた要約生成処理の一例を示す。なお、
図1と重複する説明については、簡略化または省略する。また、
図2に示すステップ番号(S1など)は、
図1に示すステップ番号に対応する。
【0050】
まず、
図2(a)には、記事コンテンツC1に含まれる文章であって、処理が加えられてない文章である原文が示されている。
図2(a)に示すように、記事コンテンツC1は、原文の状態では、文章CSN11、文章CSN12、文章CSN13、文章CSN14および文章CSN15を含む。
【0051】
このような状態において、要約生成装置100は、原文に対してクレンジング処理を行う(ステップS2)。クレンジング処理により文章CSN15が除外され、この結果、クレンジング後の記事コンテンツC1は、
図2(b)のようになる。
【0052】
次に、要約生成装置100は、
図2(b)の状態において、固有名詞のマージを行う(ステップS3)。ここで、ユーザU1の興味の対象は、例えば、「PY1」という人物であるが、文章CSN11では、主語に「チームTaのPY1選手」が用いられ、また、文章CSN13では、主語に「PY1選手」が用いられている。そして、「チームTaのPY1選手」、および、「PY1選手」は、ともに一人の人物「PY1」を指すという点で表現は異なるが同義である。このようなことから、「チームTaのPY1選手」、および、「PY1選手」は、ユーザU1の興味の対象である人物「PY1」に統一させることができる。
【0053】
したがって、要約生成装置100は、「チームTaのPY1選手」、および、「PY1選手」それぞれに対して、固有名詞「PY1」をマージする。この結果、マージ後の記事コンテンツC1は、
図2(c)のようになる。
【0054】
次に、要約生成装置100は、
図2(c)の状態において、記事コンテンツC1に含まれる文章のうち、主語が含まれない文章が存在するか否かを判定し、主語が含まれない文章を判定できた場合には、この文章について暗黙の主語を推定する。
図2(c)の状態では、要約生成装置100は、主語が含まれない文章として、文章CSN12を判定し、文章CSN12について暗黙の主語を推定する。係る例では、要約生成装置100は、文章CSN12よりも前の文章の主語(固有名詞マージ後の主語)に基づいて、暗黙の主語「PY1」を推定する。また、要約生成装置100は、推定した暗黙の主語を文章CSN12に挿入する。この結果、暗黙の主語推定後の記事コンテンツC1は、
図2(d)のようになる。このように、文章CSN12の主語(暗黙の主語)は、ユーザU1の興味の対象を示す固有名詞であり、ステップS4でマージされた固有名詞に対応する。
【0055】
また、要約生成装置100は、
図2(d)の状態において、記事コンテンツC1に含まれる文章のうち、ユーザU1の興味の対象を主語とする文章を対象文として抽出する(ステップS5)。例えば、要約生成装置100は、記事コンテンツC1に含まれる文章のうち、ステップS3で固有名詞のマージを行った文章を対象文として抽出する。また、例えば、要約生成装置100は、ステップS4で暗黙の主語が推定された文章のうち、ステップS3でマージされた固有名詞が暗黙の主語として推定された文章を対象文として抽出する。
【0056】
要約生成装置100は、文章CSN11、文章CSM12、文章CSN13の全てを抽出してもよいし、いずれかを抽出してもよい。例えば、暗黙の主語が推定された文章を抽出するよう予めルール設定されているとすると、要約生成装置100は、
図2(e)に示されるように、文章CSN11、文章CSM12、文章CSN13のうち、文章CSM12を対象文として抽出する。
【0057】
次に、要約生成装置100は、任意のアルゴリズムに従って、対象文である文章CSN12に対して構文解析を行うことで、文章CSN12の木構造を得る(ステップS6)。文章CSN12に対応する木構造の一例、および、この木構造を用いた要約生成処理の一例については
図3で説明する。
【0058】
図3は、木構造を用いた要約生成処理の一例を示す図である。
図3の例によると、要約生成装置100は、対象文である文章CSN12に対する構文解析により、ch00~ch14といった15の文節(チャンク)をノードする木構造を得る。
図3の例では、文節ch00は「同点の」に対応し、文節ch01は「6回には」に対応し、文節ch02は「勝ち越しの」に対応し、文節ch03は「左翼線適時二塁打を」に対応し、文節ch04は「放ったが」に対応し、文節ch14は「交代した」に対応する。その他の文節についても
図3に示す通りであるため説明を省略する。
【0059】
また、本実施形態では、文節から分岐する分岐数に応じて、木構造に対応する文章を分類することができる。例えば、分岐のないシンプルな文章を1型、分岐数が2つの文章を2型、分岐数が3つの文章を3型、分岐数が3より多く複雑な分岐を有する文章をnxm型と定義することができる。このようなルールに従うと、
図3に示す木構造に対応する文章(文章CSN12)について、2-3-3-3型と定義することができる。具体的には、
図3に示す木構造は、文節ch04で「2」つに分岐し、文節ch08で「3」つに分岐し、文節ch12で「3」つに分岐し、文節ch14で「3」つに分岐している。このため、木構造に対応する文章(文章CSN12)について、2-3-3-3型と定義することができる。
【0060】
このような状態において、要約生成装置100は、ユーザU1の興味の対象や、この興味の対象に対するユーザU1の嗜好性に応じた単語を含む文節を選定する。そして、要約生成装置100は、木構造に沿って、文節から分岐する分岐数が所定数以下となるように、選定した文節をつなぐことで、記事コンテンツC1の内容が要約された要約文を生成する。
【0061】
文節の選定手法について説明する。例えば、要約生成装置100は、木構造に含まれる文節のうち、ユーザU1の興味の対象に対するユーザU1の嗜好性に応じてユーザU1の感情の変動に影響すると推測される単語を含む文節を選定する。これまでの例によると、ユーザU1の興味の対象は「チームTa」および「PY1」である。また、ユーザU1はこれらのファンであるため、「チームTa」および「PY1」を好んでいる(重要視している、興味がある)。このようなことから、「チームTa」の勝敗、「チームTa」や「PY1」に関する各種成績(ヒット数、本塁打数、決勝リーグへの進出可否など)は、ユーザU1の感情をポジティブ感情、あるいは、ネガティブ感情に変えさせる大きな要因となり得る。したがって、要約生成装置100は、「チームTa」の勝敗、「チームTa」や「PY1」に関する各種成績を示す単語を含む文節を選定する。
【0062】
なお、「チームTa」が野球チームであり、「PY1選手」が野球選手であるとすると、ユーザU1は野球自体を好むともいえる。そして、野球を好むユーザ全般にとっては、試合結果や選手成績を示す数情報などは、重要な情報であり、これによりポジティブ感情になることもあれば、ネガティブ感情になることもある。したがって、このような観点から、要約生成装置100は、試合結果や各種成績を示す単語を含む文節を選定してもよい。
【0063】
また、要約生成装置100は、カテゴリ(例えば、スポーツカテゴリなど)ごとに、当該カテゴリで重要視される情報(スポーツカテゴリであれば結果や成績など)が定義されたルール一覧を有しておき、この一覧を参照してルールベースで文節を選定してもよい。
【0064】
また、要約生成装置100は、木構造に含まれる文節のうち、興味の対象に対するユーザU1の嗜好性に応じてユーザの感情の度合いを示す感情値を変動させると推測される単語を含む文節を選定してもよい。ここでいう感情値とは、ポジティブ感情を示す感情値、および、ネガティブ感情を示す感情値、すなわち「PN値」である。例えば、分岐のないシンプルな文章すなわち1型の文章となるように文節を組み合わせてできる各要約文を、PN値を出力するモデル(文章とPN値との関係性が学習されたモデル)に入力する。そして、要約生成装置100は、出力されたPN値が所定値より大きくなる要約文を構成する文節を選定する。例えば、要約生成装置100は、ポジティブ感情を示す感情値、または、ネガティブ感情を示す感情値の少なくともいずれか一方が所定値より大きくなる要約文を構成する文節を選定する。
【0065】
また、要約生成装置100は、ユーザU1の感情の変動に影響すると推測される単語、あるいは、ユーザU1の感情の度合いを示す感情値を変動させると推測される単語のうち、現在時期に関連する単語を含む文節を優先的に選定してもよい。例えば、野球であればリーグ優勝が決まりだす時期(月)には、野球に関するこの時期特有のワード(例えば、優勝争いするチーム名や、本塁打争いする選手名、首位打者候補の選手名など)が検索ランキングの上位に出現することがある。したがって、要約生成装置100は、このような時期の習性(季節性)を有する単語を含む文節を優先的に抽出してもよい。なお、要約生成装置100は、カテゴリ(例えば、野球カテゴリ)ごとに、当該カテゴリではどの時期にどのワードが頻出するかが学習された辞書を有しておき、係る辞書を参照することで、時期の習性(季節性)を有する単語を特定してもよい。
【0066】
また、要約生成装置100は、ユーザU1の興味の対象に関連する単語(固有名詞)であって、ユーザU1の嗜好性とより関連性の高いの高い単語を含む文節を選定してもよい。これまでの例によると、ユーザU1の興味の対象は「チームTa」および「PY1」である。また、ユーザU1はこれらのファンであるため、「チームTa」および「PY1」を好んでいる。
【0067】
ここで、「チームTa」を例に挙げると、要約生成装置100は、「チームTa」を好むユーザ(「チームTa」のファン)に対して、ポジティブな印象を与える単語、および、ネガティブな印象を与える単語が単語間距離に基づき分布されたポジネガマップを用いて、「チームTa」に対しての関連性が高いと推定される単語を特定する。具体的には、要約生成装置100は、ポジネガマップを参照し、「チームTa」との単語間距離が所定値以下の単語を特定することで、特定した単語を含む文節を選定する。なお、単語間距離に基づくポジネガマップの生成については
図5で説明する。
【0068】
ここまで文節の選定手法について説明してきた。要約生成装置100は、上記のように木構造から文節を選定すると、文節から分岐する分岐数が所定数以下となるように、この木構造に沿って、選定した文節をつなぐことで記事コンテンツC1の内容が要約された要約文を生成する。例えば、要約生成装置100は、文節から分岐する分岐数が「2」以下となるように、選定した文節をつなぐことで記事コンテンツC1の内容が要約された要約文を生成する。分岐数が「2」以下となる文章とは、分岐のないシンプルな1型の文章、あるいは、分岐数が2つである2型の文章である。ここでは、要約生成装置100は、選定した文節をつなぐことで1型の文章を生成し、生成した1型の文章を組み合わせて要約文とするものとする。
【0069】
ここで、例えば、「勝ち越し」や「二塁打」という単語は、「チームTa」を興味の対象とするユーザU1に対して感情の変化を与える大きな要因となり得る単語である。また、「PY1」が「途中交代」したことを示す単語、すなわち「途中」および「交代」は、「PY1」を興味の対象とするユーザに対して感情の変化を与える大きな要因となり得る単語である。このようなことから、
図3の例では、要約生成装置100は、「勝ち越し」を含む文節ch02、「二塁打」を含む文節ch03を選定したものとする。また、
図3の例では、要約生成装置100は、「途中」を含む文節ch13、「交代」を含む文節ch14を選定したものとする。
【0070】
係る例では、要約生成装置100は、文節ch02および文節ch03を選定したことにより、1型の文章となるようにさらに文節ch04を選定する。そして、要約生成装置100は、木構造に沿って、文節ch02、文節ch03、文節ch04、文節ch13、文節ch14をつなげることにより、1型の文章CSN121を生成する。具体的には、要約生成装置100は、対象文である文章CSN12から「勝ち越しの左翼線適時二塁打を放ったが、途中交代した。」という1型の文章CSN121を生成する。
【0071】
また、
図3の例では、要約生成装置100は、同様の手法により、対象文である文章CSN11からは「チームTaのPY1選手が30号2ラン。」という1型の文章CSN111を生成している。また、要約生成装置100は、対象文である文章CSN13からは「PY1は「様子を見ながらです」と判断。」という1型の文章CSN131を生成している。
【0072】
また、これまでの例によると、文章CSN14は対象文として抽出されていない。しかし、文章CSN14には、ユーザU1に対して感情の変化を与え得る試合結果に関する情報が含まれている。このようなことから、要約生成装置100は、文章CSN14からも1型の文章CSN141を生成している。このように、要約生成装置100は、対象文でなくともその内容によっては要約文を構成させる文章として採用してもよい。
【0073】
そして、要約生成装置100は、各1型の文章CSN111、CSN121、CSN131およびCSN141を組み合わせて、最終的に、
図3に示すような要約文SM1を生成する。
図3に示すように、要約文SM1は、ユーザU1の興味の対象に基づく趣向が反映された文章となっている。例えば、従来の要約技術であれば、主語を有しない文章CSN13に基づく、1型の文章CSN131を含まないような要約文が生成されてしまったり、1型の文章への変換処理がないことで要約が不十分な要約文が生成されてしまう可能性がある。しかし、実施形態に係る要約生成プログラムによれば、ユーザの趣向が反映され、かつ、まとまりのある要約文を生成させることができる。
【0074】
〔5.要約生成装置の構成〕
次に、
図4を用いて、実施形態に係る要約生成装置100について説明する。
図4は、実施形態に係る要約生成装置100の構成例を示す図である。
図4に示すように、要約生成装置100は、通信部110と、記憶部120と、制御部130とを有する。
【0075】
(通信部110について)
通信部110は、例えば、NIC(Network Interface Card)等によって実現される。そして、通信部110は、ネットワークNと有線または無線で接続され、例えば、ユーザが有する端末装置との間で情報の送受信を行う。
【0076】
(記憶部120について)
記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ等の半導体メモリ素子またはハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、辞書データベース121と、ユーザ情報記憶部122と、コンテンツ記憶部123と、要約情報記憶部124とを有する。
【0077】
(辞書データベース121について)
辞書データベース121は、例えば、一般用語辞書、シソーラス辞書、固有名詞辞書に対応する。また、例えば、固有名詞辞書では、正式な固有名詞に対して、異なる表現の固有名詞が紐付けられている。また、要約生成装置100は、ユーザの動向に基づいて、時期に影響される用語を学習し、学習した用語とその時期とを紐付けておいてもよい。
【0078】
(ユーザ情報記憶部122について)
ユーザ情報記憶部122は、ユーザの興味を示すユーザ情報を記憶する。例えば、後述する受付部131は、このようなユーザ情報の登録をユーザから受け付けた場合には、このユーザを識別する識別情報(ユーザID)に対して、受け付けたユーザ情報を対応付けてユーザ情報記憶部122に格納する。
【0079】
(コンテンツ記憶部123について)
コンテンツ記憶部123は、処理対象のコンテンツを記憶する。例えば、後述する取得部132は、処理対象のコンテンツを取得すると、取得した処理対象のコンテンツをコンテンツ記憶部123に格納する。例えば、後述する取得部132は、受付部131により処理対象のコンテンツの登録が受け付けられた場合には、登録元のユーザを識別する識別情報(ユーザID)に対して、受け付られたコンテンツを対応付けてコンテンツ記憶部123に格納する。
【0080】
(要約情報記憶部124について)
要約情報記憶部124は、処理対象のコンテンツの内容が要約された要約文を示す文章情報を記憶する。例えば、後述する生成部134は、ユーザによるユーザ情報の登録に応じて、このユーザに対して要約文を生成した場合には、このユーザを識別する識別情報(ユーザID)に対して、生成した要約文を対応付けて要約情報記憶部124に格納する。
【0081】
なお、
図4では付図示であるが、要約生成装置100は、モデルやポジネガマップを記憶する記憶部をさらに有してもよい。
【0082】
(制御部130について)
制御部130は、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、要約生成装置100内部の記憶装置に記憶されている各種プログラム(例えば、実施形態に係る要約生成プログラム)がRAMを作業領域として実行されることにより実現される。また、制御部130は、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現される。
【0083】
図4に示すように、制御部130は、受付部131と、取得部132と、抽出部133と、生成部134と、推定部135と、出力部136と、第1制御部137と、第2制御部138とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、
図4に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。また、制御部130が有する各処理部の接続関係は、
図4に示した接続関係に限られず、他の接続関係であってもよい。
【0084】
(受付部131について)
受付部131は、ユーザの興味を示すユーザ情報の登録を受け付ける。例えば、受付部131は、ユーザ操作に応じてこのユーザの端末装置から送信されたユーザ情報を受け付け、ユーザ情報を受け付けた場合には、ユーザ情報の登録を受け付けを完了させる。また、受付部131は、ユーザから処理対象のコンテンツの登録も受け付けることができる。
【0085】
(取得部132について)
取得部132は、ユーザの興味を示すユーザ情報と、処理対象のコンテンツとを取得する。
図1の例では、取得部132は、ユーザU1に対応するユーザ情報として、「チームTa」のファン(「チームTa」に興味がある、あるいは、「チームTa」が好き)といったことを示すユーザ情報を取得している。また、
図1の例では、取得部132は、ユーザU1に対応するユーザ情報として、「PY1選手」のファン(「PY1選手」に興味がある、あるいは、「PY1選手」が好き)といったことを示すユーザ情報を取得している。また、
図1の例では、取得部132は、処理対象のコンテンツとして、1ヶ月分の記事コンテンツ群を取得している。また、
図1の例では、取得部132は、1ヶ月分の記事コンテンツ群に対して絞り込みが行われた後では、記事コンテンツC1を処理対象のコンテンツとして取得している。
【0086】
(抽出部133について)
抽出部133は、処理対象のコンテンツに含まれる文章のうち、ユーザ情報が示す興味の対象が話題となっている文章である対象文を抽出する。例えば、抽出部133は、興味の対象として、処理対象のコンテンツに含まれる文章中の固有名詞が指し示す対象であって、ユーザが興味を有する対象が話題となっている文章を対象文として抽出する。
【0087】
より詳細には、抽出部133は、処理対象のコンテンツに含まれる文章中の異なる複数の固有名詞のうち同義の固有名詞が指し示す対象であって、ユーザが興味を有する対象が話題となっている文章を対象文として抽出する。また、抽出部133は、処理対象のコンテンツに含まれる文章のうち、主語が含まれない文章について主語を推定し、推定した主語が、上記同義の固有名詞が指し示す対象となっている文章を対象文として抽出する。
【0088】
また、このようなことから、抽出部133は、
図1および
図2のステップS1~ステップS5で説明したような一連の抽出処理を行う。
【0089】
(生成部134について)
生成部134は、抽出部133により抽出された対象文に基づいて、処理対象のコンテンツの内容が要約された要約文を生成する。例えば、生成部134は、対象文が構文解析された解析結果である木構造に基づいて、処理対象のコンテンツの内容が要約された要約文を生成する。例えば、生成部134は、対象文が構文解析された解析結果である木構造を構成するノードである文節に基づいて、処理対象のコンテンツの内容が要約された要約文を生成する。
【0090】
一例としては、生成部134は、木構造を構成する文節のうち、ユーザによる興味の対象に対するユーザの嗜好性に応じてユーザの感情の変動に影響すると推測される単語を含む文節に基づいて、処理対象のコンテンツの内容が要約された要約文を生成する。より詳細胃は、生成部134は、このような単語として、ユーザによる興味の対象に対するユーザの嗜好性に応じてユーザの感情の度合いを示す感情値を変動させると推測される単語を含む文節に基づいて、処理対象のコンテンツの内容が要約された要約文を生成する。
【0091】
また、生成部134は、現在時期に関連する単語を含む文節を優先的に用いて、処理対象のコンテンツの内容が要約された要約文を生成してもよい。
【0092】
また、生成部134は、ユーザによる興味の対象に関連する単語であって、ユーザの嗜好性とより関連性の高いの高い単語を含む文節を優先的に用いて、処理対象のコンテンツの内容が要約された要約文を生成してもよい。
【0093】
また、生成部134は、対象文が構文解析された解析結果である木構造に沿って、文節から分岐する分岐数が所定数以下となるように、選定した文節をつなぐことで、処理対象のコンテンツの内容が要約された要約文を生成する。
【0094】
また、このようなことから、生成部134は、
図1のステップS6~ステップS7、そして、
図3で説明したような一連の生成処理を行う。
【0095】
(推定部135について)
推定部135は、ユーザによる興味の対象に対するユーザの嗜好性に基づいて、感情の種別ごとに、要約文の内容に対するそれぞれの感情の度合いを示す感情値(PN値)を推定する。例えば、推定部135は、ユーザの感情の種別として、肯定的な感情(ポジティブな感情)および否定的な感情(ネガティブな感情)それぞれについて、要約文の内容に対する感情の度合いを示す感情値を推定する。
【0096】
また、例えば、推定部135は、固有名詞が除外された任意の文章と、当該任意の文章に対してユーザが評価した値であって、当該任意の文章の内容に対する感情の度合いを示す感情値との関係性が学習されたモデルに基づいて、要約文の内容に対する感情の度合いを示す感情値を推定する。例えば、推定部135は、このようなモデルとして、肯定的な感情および否定的な感情うち、ユーザの嗜好性と要約文の内容との関係性に応じた感情ほど高い感情値を出力するように学習されたモデルに基づいて、要約文の内容に対する感情の度合いを示す感情値を推定する。
【0097】
(出力部136について)
出力部136は、ユーザに対して、処理対象のコンテンツの内容が要約された要約文を出力する。例えば、出力部136は、処理対象のコンテンツの内容が要約された要約文として、推定部135により推定されたPN値が付与された要約文を出力する。例えば、出力部136は、PN値付きの要約文がユーザの端末装置に表示されるよう、PN値付きの要約文を係る端末装置に送信する。
【0098】
(第1制御部137について)
第1制御部137は、任意の文章と、当該任意の文章に対してユーザが評価した値であって、当該任意の文章の内容に対する感情の度合いを示す感情値との関係性が学習されたモデルを学習する。具体的には、第1制御部137は、固有名詞が除外された任意の文章と、当該任意の文章に対してユーザが評価した値であって、当該任意の文章の内容に対する感情の度合いを示す感情値との関係性が学習されたモデルを生成する。また、ここでいう感情とは肯定的な感情(ポジティブ)感情、および、否定的な感情(ネガティブ感情)である。
【0099】
また、例えば、第1制御部137は、モデルとして、肯定的な感情および否定的な感情うち、ユーザの嗜好性と要約文の内容との関係性に応じた感情ほど高い感情値を出力するようにモデルを学習する。
【0100】
より詳細な一例を挙げる。例えば、「チームTa」が勝利した記事は、「チームTa」のファンに対してポジティブ感情にさせ、また、「チームTa」が敗北した記事は、アンチ「チームTa」に対してポジティブ感情にさせる。一方、「チームTa」が敗北した記事は、「チームTa」のファンに対してネガティブ感情にさせ、また、「チームTa」が勝利した記事は、アンチ「チームTa」に対してネガティブ感情にさせる。このように、ユーザの嗜好性と要約文の内容との関係性に応じて、ポジティブ感情およびネガティブ感情のうち、どちらの感情がより強くなるかが決まってくる。
【0101】
したがって、係る例を用いると、第1制御部137は、「チームTa」のファンユーザに対しては「チームTa」が勝利した内容の要約文について、ポジティブ感情およびネガティブ感情のうち、ポジティブ感情の度合いを示す感情値をより高めるようモデルを学習する。また、第1制御部137は、アンチ「チームTa」ユーザに対しては「チームTa」が敗北した内容の要約文について、ポジティブ感情およびネガティブ感情のうち、ポジティブ感情の度合いを示す感情値をより高めるようモデルを学習する。
【0102】
一方、第1制御部137は、「チームTa」のファンユーザに対しては「チームTa」が敗北した内容の要約文について、ポジティブ感情およびネガティブ感情のうち、ネガティブ感情の度合いを示す感情値をより高めるようモデルを学習する。また、第1制御部137は、アンチ「チームTa」のユーザに対しては「チームTa」が勝利した内容の要約文について、ポジティブ感情およびネガティブ感情のうち、ネガティブ感情の度合いを示す感情値をより高めるようモデルを学習する。
【0103】
ここからはモデル学習の一例についてより詳細に説明する。例えば、第1制御部137は、
図3で明した1型の文章または2型の文章のサンプル文章であって、固有名詞を含まないサンプル文章(すなわち一般用語で構成されたサンプル文章)と、当該サンプル文章に対してユーザがポジティブ感情の感情値またはネガティブ感情の感情値を評価した値との組を学習データセットとして、文章の内容と感情値との関係性を学習する。
【0104】
例えば、「私は、勝ち越しの左翼線適時二塁打を放ったが、途中交代した。」というサンプル文章(1型の文章)に対して、任意のユーザは各一般用語(例えば、「勝ち越し」、「二塁打」、「途中交代」など)それぞれに対して感情値を評価するとともに、この文章全体としての感情値も評価する。よって、係る例では、第1制御部137は、このサンプル文章と、各一般用語に対する感情値と、文章全体としての感情値との組み合わせを学習データセットとして学習を行う。試行回数が多いほど学習精度は高まるため、多くのサンプル文章を用いることが望ましい。
【0105】
そして、このような状態において、第1制御部137は、サンプル文章に対応する木構造に含まれる分岐数、サンプル文章に対応する木構造に含まれる文節数、サンプル文章に対応する木構造に含まれる字句(形態素)数、一般用語で構成される文章全体としての感情値、ユーザ評価による感情値、これらに基づいて、モデルを生成する。また、固有名詞を含まない文章であれば、ユーザ評価にユーザ個人の主観が反映され難いため、要約生成装置100は、固有名詞を含まない文章を用いることで、より高精度なモデルを生成することができる。
【0106】
ここで、ユーザ評価による感情値は、一般用語に対してユーザ評価された感情値ではなく、固有名詞に対してユーザ評価された感情値であってもよい。しかし、固有名詞は、数が多いうえに経時的にその数が変化するという性質があるため、ユーザに対して全ての固有名詞を評価させることは困難である。以下で説明する第2制御部138は、このような状況に対応する。
【0107】
(第2制御部138について)
第2制御部138は、単語と単語の関連性(類似性)を示す単語間距離を算出する。例えば、第2制御部138は、固有名詞と一般的用語との単語間距離を算出する。また、第2制御部138は、記事などの一般知識に基づいて、固有名詞と一般用語とをクラスタリングする。そして、第2制御部138は、同一クラスタ内の単語が、自動的に同じ意味的指向を持つように制御する。このような制御によれば、ユーザがクラスタ内の単語に対してだけ感情値を評価しさえすれば、ユーザ評価が行われておらず感情値が未知の固有名詞も動的に感情値が算出されることになる。この結果、第1制御部137は、数が多いうえに経時的にその数が変化するという性質を有するがゆえにユーザ評価が行われていない固有名詞に対する感情値を得ることができるようになるため、この感情値を用いることでより高精度なモデルを生成することができるようになる。
【0108】
例えば、第2制御部138は、以下のルールに従って、経時的かつ現イベントにおける個人の嗜好の変化に応じて各単語が意味的指向をもつように制御する。例えば、単語間距離には、サイズ、視野、動き、といったパラメータが存在し、また、サイズおよび視野には、単語の出現頻度が必要となるため、第2制御部138は、このパラメータおよび出現頻度に基づいて、単語間距離を算出するとともに、経時的かつ現イベントにおける個人の嗜好の変化に応じて各単語が意味的指向をもつように制御する。そして、このような制御の結果は、3次元トーラス形式のポジネガマップとして表現させることができる。
【0109】
図5には、実施形態に係るポジネガマップPN-MPの一例が示される。
図5の左に示されるテーブルTBでは、「チーム」(チーム名)ごとに、当該チームに所属する「選手」(選手名)がクラスタリングされた状態で、クラスタごとに当該クラスタにおける「チーム」と各「選手」との間で算出された「単語間距離」が一覧表示されている。
【0110】
図5に示すテーブルTBの例では、チーム「Ta」には、選手「PY1a」、選手「PY2a」、選手「PY3a」が、1つのチーム「Ta」としてクラスタリングされている。また、
図5に示すテーブルTBの例では、チーム名を示す単語「Ta」と、選手名を示す単語「PY1a」との単語間距離として「74」が算出されている。また、
図5に示すテーブルTBの例では、チーム名を示す単語「Ta」と、選手名を示す単語「PY2a」との単語間距離として「64」が算出されている。また、
図5に示すテーブルTBの例では、チーム名を示す単語「Ta」と、選手名を示す単語「PY3a」との単語間距離として「157」が算出されている。
【0111】
チーム「Tb」、チーム「Tc」、チーム「Td」、チーム「Te」、チーム「Tg」、チーム「Tf」については説明を省略する。
【0112】
そして、
図5の右に示されるポジネガマップPN-MPでは、テーブルTBの「単語間距離」に基づき、各単語の関係性が3次元トーラス形式で示されている。例えば、ポジネガマップPN-MPでは、
図5に示されるように、チーム名を示す単語「Ta」に対応する円球CTaに対して、選手名を示す単語「PY1a」が単語間距離「74」に基づき配置されている。また、チーム名を示す単語「Ta」に対応する円球CTaに対して、選手名を示す単語「PY2a」が単語間距離「64」に基づき配置されている。また、チーム名を示す単語「Ta」に対応する円球CTaに対して、選手名を示す単語「PY3a」が単語間距離「157」に基づき配置されている。なお、ポジネガマップPN-MPに示される円球の大きさ(直径)は、この円球に対応する単語の出現頻度に対応する。
【0113】
そして、ポジネガマップPN-MPでは、個人の嗜好の変化に応じて各単語が意味的指向をもつように制御される。このため、「チームTa」のファンユーザに対しては、チーム名を示す単語「Ta」に対応する円球CTaの色が例えば特定の色(例えば、赤色)に制御されるとともに、選手名を示す単語「PY1a」、「PY2a」、「PY3a」それぞれに対応する円球の色も同系色(例えば、赤系統の色)に制御される。すなわち、ポジネガマップPN-MPの態様は、個人の嗜好の応じて意味的指向をもつように変化させられる。
【0114】
一方、アンチ「チームTa」に対しては、チーム名を示す単語「Ta」に対応する円球CTaの色が例えば別の特定の色(例えば、青色)に制御されるとともに、選手名を示す単語「PY1a」、「PY2a」、「PY3a」それぞれに対応する円球の色も同系色(例えば、青系統の色)に制御される。
【0115】
このように、ポジネガマップPN-MPの態様は、個人の嗜好の応じて意味的指向をもつように変化させられる。このため、
図3で説明したように、要約生成装置100は、係るポジネガマップPN-MPを参照することで、「チームTa」との単語間距離が所定値以下の単語を特定することができるようになる。
【0116】
〔6.処理手順〕
次に、
図6を用いて、実施形態に係る要約生成処理の手順について説明する。
図6は、実施形態に係る要約生成処理手順を示すフローチャートである。
【0117】
まず、受付部131は、ユーザからユーザ情報の登録を受け付けたか否かを判定する(ステップS101)。受付部131は、ユーザ情報の登録を受け付けていないと判定している間は(ステップS101;No)、ユーザ情報の登録を受け付けたと判定できるまで待機する。
【0118】
一方、取得部132は、受付部131によりユーザ情報の登録を受け付けたと判定された場合には(ステップS101;Yes)、登録に応じて受け付けられたユーザ情報を取得する(ステップS102)。例えば、取得部132は、ユーザ情報記憶部122からユーザ情報を取得する。また、取得部132は、処理対象のコンテンツも取得する。例えば、取得部132は、コンテンツ記憶部123から処理対象のコンテンツを取得する。なお、ユーザによる処理対象のコンテンツの登録により、受付部131により処理対象のコンテンツも受け付けられた場合には、取得部132は、受付部131からこの処理対象のコンテンツを取得する。
【0119】
次に、抽出部133は、ユーザ情報に基づいて、処理対象のコンテンツを絞り込みを行う(ステップS103)。例えば、抽出部133は、処理対象のコンテンツの中から、ユーザの興味に関するコンテンツの絞り込みを行う。絞り込まれたコンテンツも処理対象のコンテンツである。また、抽出部133は、絞り込み後の処理対象のコンテンツに対してクレンジング処理を行うことで、不必要なデータを除去する(ステップS104)。
【0120】
次に、抽出部133は、ユーザ情報が示すユーザの興味の対象に基づいて、クレンジング後の処理対象のコンテンツに含まれる文章に対して、固有名詞のマージを行う(ステップS105)。また、抽出部133は、クレンジング後の処理対象のコンテンツに含まれる文章のうち、主語が含まれない文章について暗黙の主語を推定し、推定した主語を挿入する(ステップS106)。
【0121】
次に、抽出部133は、固有名詞のマージが行われた文章、および、暗黙の主語が推定された文章それぞれのうち、ユーザ情報が示す興味の対象が話題となっている文章である対象文を抽出する(ステップS107)。例えば、抽出部133は、ユーザ情報が示す興味の対象に対応する固有名詞(正式な固有名詞)を主語とする文章を対象文として抽出する。
【0122】
次に、生成部134は、抽出された対象文に対して構文解析を実行することで、解析結果である木構造であって、対象文に対応する木構造を得る(ステップS108)。そして、生成部134は、木構造に基づいて、要約文を生成する(ステップS109)。例えば、生成部134は、木構造に含まれる文節のうち、ユーザによる興味の対象に対するユーザの嗜好性に応じた単語を含む文節を選定し、1型の文章となるように、この選定した文章をつなぐという処理を文章ごとに行う。そして、生成部134は、1型の文章を組み合わせることにより要約文を生成する。
【0123】
次に、推定部135は、ユーザの嗜好性に基づいて、感情の種別ごとに、生成された要約文の内容に対する感情の度合いを示す感情値(PN値)を推定する(ステップS110)。そして、出力部136は、ユーザに対して、感情値が付与された要約文を出力する(ステップS111)。
【0124】
〔7.ハードウェア構成〕
また、上記実施形態に係る要約生成装置100は、例えば
図7に示すような構成のコンピュータ1000によって実現される。
図7は、要約生成装置100の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。コンピュータ1000は、CPU1100、RAM1200、ROM1300、HDD1400、通信インターフェイス(I/F)1500、入出力インターフェイス(I/F)1600、及びメディアインターフェイス(I/F)1700を有する。
【0125】
CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
【0126】
HDD1400は、CPU1100によって実行されるプログラム、および、係るプログラムによって使用されるデータ等を格納する。通信インターフェイス1500は、通信網50を介して他の機器からデータを受信してCPU1100へ送り、CPU1100が生成したデータを、通信網50を介して他の機器へ送信する。
【0127】
CPU1100は、入出力インターフェイス1600を介して、ディスプレイやプリンタ等の出力装置、及び、キーボードやマウス等の入力装置を制御する。CPU1100は、入出力インターフェイス1600を介して、入力装置からデータを取得する。また、CPU1100は、生成したデータを、入出力インターフェイス1600を介して出力装置へ出力する。
【0128】
メディアインターフェイス1700は、記録媒体1800に格納されたプログラム又はデータを読み取り、RAM1200を介してCPU1100に提供する。CPU1100は、係るプログラムを、メディアインターフェイス1700を介して記録媒体1800からRAM1200上にロードし、ロードしたプログラムを実行する。記録媒体1800は、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
【0129】
例えば、コンピュータ1000が実施形態に係る要約生成装置100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされたプログラムを実行することにより、制御部130の機能を実現する。また、HDD1400には、記憶部120内のデータが格納される。コンピュータ1000のCPU1100は、これらのプログラムを、記録媒体1800から読み取って実行するが、他の例として、他の装置から、通信網50を介してこれらのプログラムを取得してもよい。
【0130】
〔8.その他〕
また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
【0131】
以上、本願の実施形態をいくつかの図面に基づいて詳細に説明したが、これらは例示であり、発明の開示の欄に記載の態様を始めとして、当業者の知識に基づいて種々の変形、改良を施した他の形態で本発明を実施することが可能である。
【0132】
また、上述してきた「部(section、module、unit)」は、「手段」や「回路」などに読み替えることができる。例えば、取得部は、取得手段や取得回路に読み替えることができる。
【符号の説明】
【0133】
100 要約生成装置
120 記憶部
121 辞書データベース
122 ユーザ情報記憶部
123 コンテンツ記憶部
124 要約情報記憶部
130 制御部
131 受付部
132 取得部
133 抽出部
134 生成部
135 推定部
136 出力部
137 第1制御部
138 第2制御部