(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-10-12
(45)【発行日】2023-10-20
(54)【発明の名称】要約装置およびプログラム
(51)【国際特許分類】
G06F 40/279 20200101AFI20231013BHJP
【FI】
G06F40/279
(21)【出願番号】P 2019190514
(22)【出願日】2019-10-17
【審査請求日】2022-09-20
(73)【特許権者】
【識別番号】000004352
【氏名又は名称】日本放送協会
(74)【代理人】
【識別番号】100141139
【氏名又は名称】及川 周
(74)【代理人】
【識別番号】100171446
【氏名又は名称】高田 尚幸
(74)【代理人】
【識別番号】100114937
【氏名又は名称】松本 裕幸
(74)【代理人】
【識別番号】100171930
【氏名又は名称】木下 郁一郎
(72)【発明者】
【氏名】宮▲崎▼ 太郎
【審査官】成瀬 博之
(56)【参考文献】
【文献】特開2002-197097(JP,A)
【文献】特開2001-052032(JP,A)
【文献】特開2014-203383(JP,A)
【文献】特表2012-501503(JP,A)
【文献】特開2017-151788(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 40/00-40/58
G06F 16/00-16/958
(57)【特許請求の範囲】
【請求項1】
テキストデータを取得するテキスト取得部と、
形態素解析処理を行うことによって、あるいは、予め記憶されている地名情報を参照することによって、前記テキストデータから地名を抽出する地名抽出部と、
前記テキストデータに含まれる
「{名詞または接頭語}+数詞(+接続助詞+数詞)(+{{名詞、ただし形容詞語幹以外}または並立助詞または形容詞})」のパターン(ただし、丸括弧で囲われる部分は省略可能)の表現を影響範囲の表現として抽出する影響範囲抽出部と、
前記テキストデータに含まれる
動詞を含む節に直接的に係る節をつなぐことによって得られる表現を主題として抽出する主題抽出部と、
前記地名と、前記影響範囲の表現と、前記主題との組であって、前記地名または前記影響範囲の表現の少なくともいずれかが欠けていることを許容する前記組に、予め記憶しておいた生成ルールを適用することによって要約を生成する要約生成部と、
前記地名抽出部が抽出した地名に基づいて話題地域を特定する話題地域特定部と、
を備
え、
前記地名は、階層構成として、上位地名と中位地名と下位地名とを含むものであり、
前記地名情報は、前記上位地名に属する前記中位地名の情報である所属関係情報を含むものであり、
前記話題地域特定部は、前記地名抽出部が抽出した前記中位地名の候補の集合を基に、前記テキストデータが話題の対象とする上位地名を推定することによって、前記上位地名によって表される前記話題地域を特定するものであ
り、
前記要約生成部は、前記話題地域特定部が特定した前記話題地域を用いた前記要約を生成する、
要約装置。
【請求項2】
前記地名情報は、前記上位地名のペアが隣接関係であるか否かを表す隣接関係情報を含むものであり、
前記話題地域特定部は、前記隣接関係情報を参照することによって、推定された複数の前記上位地名が相互に隣接するものであるか否かを判定し、隣接関係を有する上位地名のペアの関係を推移的に適用して得られる複数の前記上位地名の集合として表される前記話題地域を特定するものである、
請求項
1に記載の要約装置。
【請求項3】
前記話題地域特定部は、前記地名情報を参照することによって前記テキストデータから抽出された前記中位地名の候補の集合を基に、上位地名のスコアを算出して、相対的にスコアの良い前記上位地名を前記話題地域として特定するものであり、
前記上位地名のスコアは、前記所属関係情報に基づいて、当該上位地名に属する前記中位地名の候補の各々についての当該中位地名の候補が属するすべての上位地名の数の逆数の、当該上位地名に属する前記中位地名の候補のすべてについての和をとった値、として算出される、
請求項
1または2に記載の要約装置。
【請求項4】
前記地名抽出部は、前記形態素解析処理を行うことによって抽出された前記地名のうち、前記上位地名および前記中位地名のいずれにも特定されなかった地名を前記下位地名として抽出し、且つ、当該下位地名を、当該下位地名に先立って前記テキストデータ内で出現する前記中位地名のうちの当該下位地名に最も近い位置に出現する前記中位地名に属する下位地名として抽出
し、
前記要約生成部は、前記組が中位地名を含み且つ下位地名を含む場合に、「<主題> <中位地名> <下位地名のリスト>」という前記要約を生成する、
請求項
1から3までのいずれか一項に記載の要約装置。
【請求項5】
前記地名抽出部は、地名であることを推定させる特定のキーワードを伴う名詞を、さらに、前記下位地名として抽出し、且つ、当該下位地名を、当該下位地名に先立って前記テキストデータ内で出現する前記中位地名のうちの当該下位地名に最も近い位置に出現する前記中位地名に属する下位地名として抽出する、
請求項
4に記載の要約装置。
【請求項6】
コンピューターを、
テキストデータを取得するテキスト取得部と、
形態素解析処理を行うことによって、あるいは、予め記憶されている地名情報を参照することによって、前記テキストデータから地名を抽出する地名抽出部と、
前記テキストデータに含まれる
「{名詞または接頭語}+数詞(+接続助詞+数詞)(+{{名詞、ただし形容詞語幹以外}または並立助詞または形容詞})」のパターン(ただし、丸括弧で囲われる部分は省略可能)の表現を影響範囲の表現として抽出する影響範囲抽出部と、
前記テキストデータに含まれる
動詞を含む節に直接的に係る節をつなぐことによって得られる表現を主題として抽出する主題抽出部と、
前記地名と、前記影響範囲の表現と、前記主題との組であって、前記地名または前記影響範囲の表現の少なくともいずれかが欠けていることを許容する前記組に、予め記憶しておいた生成ルールを適用することによって要約を生成する要約生成部と、
前記地名抽出部が抽出した地名に基づいて話題地域を特定する話題地域特定部と、
を備
え、
前記地名は、階層構成として、上位地名と中位地名と下位地名とを含むものであり、
前記地名情報は、前記上位地名に属する前記中位地名の情報である所属関係情報を含むものであり、
前記話題地域特定部は、前記地名抽出部が抽出した前記中位地名の候補の集合を基に、前記テキストデータが話題の対象とする上位地名を推定することによって、前記上位地名によって表される前記話題地域を特定するものであり、
前記要約生成部は、前記話題地域特定部が特定した前記話題地域を用いた前記要約を生成する、
要約装置として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、要約装置およびプログラムに関する。
【背景技術】
【0002】
例えば、大規模な災害等が発生した際には、報道機関等において、同時に多くのニュース記事が作成される。また、取材等で得られたある事実に関して、例えばニュース番組用の原稿や、要約版のテキストの原稿など、いくつかの形態の文章を作成することが必要となる。ここで、要約版のテキストとは、例えば、テレビのL字型画面を用いて配信されるテキストや、スマホのアプリで提供されるテキスト等である。一方で、そのような大規模災害等の状況においては、ニュース記事を執筆する記者は、多方面における取材活動等を行う必要があり、一時的な人手不足が発生することもあり得る。
【0003】
例えば人が執筆したニュース原稿を基に、要約版のテキストを自動的に生成することが出来れば、コンテンツ制作の省力化や迅速化を図ることができる。
【0004】
非特許文献1には、ニューラルネットワークの技術を用いて、ニュースのヘッドライン(見出し)を自動的に生成する技術が記載されている。
【0005】
非特許文献2には、要約長や文長や文数についての制約を課してニュース記事の要約を自動的に生成する技術が記載されている。
【先行技術文献】
【非特許文献】
【0006】
【文献】Kazuma Murao,Ken Kobayashi,Hayato Kobayashi,Taichi Yatsuka,Takeshi Masuyama, Tatsuru Higurashi,Yoshimune Tabuchi,“A Case Study on Neural Headline Generation for Editing Support” ,Proceedings of NAACL-HLT 2019, pages 73-82,Minneapolis,Minnesota,June 2 - June 7, 2019,Association for Computational Linguistics,URL:https://aclweb.org/anthology/papers/N/N19/N19-2010/
【文献】田中駿,笹野遼平,高村大也,奥村学,「要約長,文長,文数制約付きニュース記事要約」,言語処理学会 第22回年次大会 発表論文集,2016年3月,URL:https://www.anlp.jp/proceedings/annual_meeting/2016/pdf_dir/D1-3.pdf
【発明の概要】
【発明が解決しようとする課題】
【0007】
非特許文献1に記載された技術は、ニューラルネットワークを利用して、ニュースのヘッドラインを生成している。しかしながら、ニューラルネットワークを用いた場合に、その技術の性質上、入力データと出力データとの関係を必ずしも事前に正確に定めることができないという問題がある。例えば入力されるニュース原稿にどういった種類の情報が盛り込まれていて、そこから生成する出力にどういった種類の情報を盛り込みたいか、ということがある程度わかっている場合には、ニューラルネットワークに頼るよりも、ルール等に基づいた処理を行うほうが、期待される出力を得られる確実性が高い。
【0008】
非特許文献2に記載された技術は、例えば出力する文数等に関する制約条件を与えたうえで、記事の要約を生成するものである。しかしながら、報道等の目的で用いるためには、出力文数についての制約を与えるのではなく、入力される原稿に含まれる重要情報をできるだけ多く引き出して多数の要約文を生成することが望まれる。
【0009】
本発明は、上記のような事情に基づいて為されたものであり、入力されるテキストを基に、機械学習に頼らずにルール等に基づく処理で、出力文数に制約を設けず入力テキストに含まれる必要情報を網羅的に含んだ要約を自動的に生成することのできる要約装置およびプログラムを提供しようとするものである。
【課題を解決するための手段】
【0010】
[1]上記の課題を解決するため、本発明の一態様による要約装置は、テキストデータを取得するテキスト取得部と、形態素解析処理を行うことによって、あるいは、予め記憶されている地名情報を参照することによって、前記テキストデータから地名を抽出する地名抽出部と、前記テキストデータに含まれる数詞を含んだ表現を影響範囲の表現として抽出する影響範囲抽出部と、前記テキストデータに含まれる動詞を含んだ表現を主題として抽出する主題抽出部と、前記地名と、前記影響範囲の表現と、前記主題との組であって、前記地名または前記影響範囲の表現の少なくともいずれかが欠けていることを許容する前記組に、予め記憶しておいた生成ルールを適用することによって要約を生成する要約生成部と、を備えるものである。
【0011】
[2]また、本発明の一態様は、上記の要約装置において、前記地名は、階層構成として、上位地名と中位地名と下位地名とを含むものであり、前記地名情報は、前記上位地名に属する前記中位地名の情報である所属関係情報を含むものであり、前記地名抽出部が抽出した地名に基づいて話題地域を特定する話題地域特定部、をさらに備え、前記話題地域特定部は、前記地名抽出部が抽出した前記中位地名の候補の集合を基に、前記テキストデータが話題の対象とする上位地名を推定することによって、前記上位地名によって表される前記話題地域を特定するものである。
【0012】
[3]また、本発明の一態様は、上記の要約装置において、前記地名情報は、前記上位地名のペアが隣接関係であるか否かを表す隣接関係情報を含むものであり、前記話題地域特定部は、前記隣接関係情報を参照することによって、推定された複数の前記上位地名が相互に隣接するものであるか否かを判定し、隣接関係を有する上位地名のペアの関係を推移的に適用して得られる複数の前記上位地名の集合として表される前記話題地域を特定するものである。
【0013】
[4]また、本発明の一態様は、上記の要約装置において、前記話題地域特定部は、前記地名情報を参照することによって前記テキストデータから抽出された前記中位地名の候補の集合を基に、上位地名のスコアを算出して、相対的にスコアの良い前記上位地名を前記話題地域として特定するものであり、前記上位地名のスコアは、前記所属関係情報に基づいて、当該上位地名に属する前記中位地名の候補の各々についての当該中位地名の候補が属するすべての上位地名の数の逆数の、当該上位地名に属する前記中位地名の候補のすべてについての和をとった値、として算出されるものである。
【0014】
[5]また、本発明の一態様は、上記の要約装置において、前記地名抽出部は、前記形態素解析処理を行うことによって抽出された前記地名のうち、前記上位地名および前記中位地名のいずれにも特定されなかった地名を前記下位地名として抽出し、且つ、当該下位地名を、当該下位地名に先立って前記テキストデータ内で出現する前記中位地名のうちの当該下位地名に最も近い位置に出現する前記中位地名に属する下位地名として抽出する、ものである。
【0015】
[6]また、本発明の一態様は、上記の要約装置において、前記地名抽出部は、地名であることを推定させる特定のキーワードを伴う名詞を、さらに、前記下位地名として抽出し、且つ、当該下位地名を、当該下位地名に先立って前記テキストデータ内で出現する前記中位地名のうちの当該下位地名に最も近い位置に出現する前記中位地名に属する下位地名として抽出する、ものである。
【0016】
[7]また、本発明の一態様は、コンピューターを、テキストデータを取得するテキスト取得部と、形態素解析処理を行うことによって、あるいは、予め記憶されている地名情報を参照することによって、前記テキストデータから地名を抽出する地名抽出部と、前記テキストデータに含まれる数詞を含んだ表現を影響範囲の表現として抽出する影響範囲抽出部と、前記テキストデータに含まれる動詞を含んだ表現を主題として抽出する主題抽出部と、前記地名と、前記影響範囲の表現と、前記主題との組であって、前記地名または前記影響範囲の表現の少なくともいずれかが欠けていることを許容する前記組に、予め記憶しておいた生成ルールを適用することによって要約を生成する要約生成部と、を備える要約装置として機能させるためのプログラムである。
【発明の効果】
【0017】
本発明によれば、テキストデータから、その要約を自動的に生成することが可能となる。例えば、テキストデータが、多くの情報を含む場合(一例として、災害時の数十ヶ所以上におよぶ避難所に関する情報が列挙されるなど)にも、その情報を網羅した要約を生成することができる。また、本発明によれば、機械学習結果に頼らず、要約を生成できる。即ち、処理結果が、機械学習データに依存しない。つまり、本発明では、意図に反した要約が出力されにくい。
【図面の簡単な説明】
【0018】
【
図1】本発明の実施形態による要約装置の概略機能構成を示すブロック図である。
【
図2】同実施形態によるテキスト取得部が取得するテキストデータの例を示す概略図である。
【
図3】同実施形態による地名辞書記憶部が記憶する地名辞書のデータの構成例を示す概略図である。
【
図4】同実施形態による隣接関係辞書記憶部が記憶する隣接辞書のデータの構成例を示す概略図である。
【
図5】同実施形態による話題地域特定部による処理の手順を示すフローチャートである。
【
図6】同実施形態による話題地域特定部の処理の実例を説明するための、地名のデータおよびスコアのデータを示す概略図である。
【
図7】同実施形態による下位地名抽出部の処理の例を説明するためのデータを示す概略図である。
【
図8】同実施形態による影響範囲抽出部が抽出する影響範囲の表現の具体例を示す概略図である。
【
図9】同実施形態による影響範囲抽出部が抽出する影響範囲の表現の別の具体例を示す概略図である。
【
図10】同実施形態による主題抽出部の処理を説明するための、文の係り受け解析結果の例を示す概略図である。
【
図11】同実施形態による要約生成部の処理手順を示すフローチャートである。
【
図12】同実施形態による生成ルール記憶部が記憶する、要約表現の生成のためのルールの例を示す概略図である。
【
図13】同実施形態による要約装置の全体的な処理の手順を示すフローチャートである。
【発明を実施するための形態】
【0019】
本発明の実施形態について、図面を参照しながら、以下で説明する。本実施形態は、ニュース原稿等のテキストデータを基にその要約を自動的に生成する技術と、その技術を用いて実現した装置に関する。本実施形態で用いる概念をまず説明する。
【0020】
「上位地名」、「中位地名」、「下位地名」は、階層構造を有する地名の、それぞれレベルにおける地名である。上位地名が表す場所の領域は、中位地名が表す場所の領域を含む。中位地名が表す場所の領域は、下位地名が表す場所の領域を含む。例えば、上位地名は、都道府県名である。また、例えば、中位地名は、市区町村名である。また、例えば、下位地名は、市区町村名よりも下位の地名である。例えば、「成城」、「砧」、「大蔵」等は、東京都世田谷区に属する下位地名である。なお、上位、中位、下位は、相対的な関係を表すのみであり、上位地名として都道府県名以外を用いてもよいし、中位地名として市区町村名以外を用いてもよい。階層構造を有する地名として、他にも、例えば、国、州、郡、カウンティ(county)、バラ(borough)等の名を用いてもよい。
【0021】
「話題地域」は、ニュース原稿等のテキストの話題の対象とする地域である。「話題地域」を、一例として、単数または複数の上位地名(都道府県名)を用いて表すことができる。「影響範囲」は、上記テキストが話題とする事象の範囲または程度の大きさを表す表現である。例えば「10世帯23人」という表現は、自然災害の被害の影響範囲を表す表現の一例である。「主題」は、上記テキストが話題とする事象そのものを表す表現である。例えば「避難勧告を出して、避難を呼びかけています」という表現は、自然災害に関するニュース原稿が話題とする主題の一例である。
【0022】
本実施形態による要約装置は、ニュース記事の原稿であるテキストデータを分析し,その記事が対象とする事象について、その事象が発生している場所や、その事象が影響する範囲や、その事象の主題の情報を抽出する。要約装置は、抽出処理のために、テキストデータの形態素解析処理を行って獲得した品詞情報と辞書データとを用いる。要約装置は、得られた情報から、内容の重なるものを除去しながら、箇条書きのような要約を生成し、提示する。
【0023】
図1は、本実施形態による要約装置1の概略機能構成を示すブロック図である。図示するように、要約装置1は、テキスト取得部21と、中位地名抽出部22と、話題地域特定部23と、下位地名抽出部24と、影響範囲抽出部25と、主題抽出部26と、要約生成部27と、地名辞書記憶部31と、隣接関係辞書記憶部32と、生成ルール記憶部33とを含んで構成される。なお、中位地名抽出部22と、下位地名抽出部24とのそれぞれを、単に「地名抽出部」と呼んでもよい。これらの各機能部は、例えば、コンピューターと、プログラムとで実現することが可能である。また、各機能部は、必要に応じて、記憶手段を有する。記憶手段は、例えば、プログラム上の変数や、プログラムの実行によりアロケーションされるメモリーである。また、必要に応じて、磁気ハードディスク装置(HDD)やソリッドステートドライブ(SSD)といった不揮発性の記憶手段を用いるようにしてもよい。また、各機能部の少なくとも一部の機能を、プログラムではなく専用の電子回路として実現してもよい。各部の機能は、次に説明する通りである。
【0024】
テキスト取得部21は、外部から与えられるテキストのデータを取得する。このテキストは、例えば、記者らによって書かれたニュース原稿のテキストである。本実施形態では、特に、特定の地域における事象について記述されたニュース原稿のテキストを処理対象とする。ただし、テキストの内容は、他のものであってもよく、任意である。
【0025】
中位地名抽出部22は、テキスト取得部21が取得したテキストデータから、中位地名を抽出する。中位地名は、例えば、市区町村名である。中位地名抽出部22は、中位地名を抽出する際に、地名辞書記憶部31を参照してよい。地名辞書記憶部31が記憶する情報については後で説明する。例えば、中位地名抽出部22は、すべての市区町村名を含んだ辞書を用いて、形態素解析処理を行うことにより、中位地名を抽出する。形態素解析処理自体は、既存技術により実行可能である。一例として、MeCabなどの、既存の形態素解析ツールを使用してもよい。中位地名抽出部22の処理によって得られるものは、中位地名の候補である。
【0026】
話題地域特定部23は、中位地名抽出部22によって抽出された中位地名のリストを基に、元のテキストにおいて話題となっている地域を特定する。具体的には、話題地域特定部23は、中位地名抽出部22が抽出した中位地名の候補を基に、話題となっている上位地名がどこであるかを推定する。ここで推定される上位地名は、複数であってもよい。上位地名は、例えば、都道府県名である。話題地域特定部23は、上位地名(単数または複数)を推定した後、中位地名抽出部22が抽出した中位地名候補のうち、推定結果である上位地名に属する中位地名のみを、中位地名リストとして出力する。中位地名抽出部22が抽出した中位地名候補のうち、推定結果である上位地名に属しない中位地名は、元のテキストにおいて話題になっている地域に該当するものではないと判定され、放棄される。
【0027】
言い換えれば、話題地域特定部23は、中位地名抽出部22が抽出した中位地名の候補の集合を基に、テキストデータが話題の対象とする上位地名を推定することによって、上位地名によって表される話題地域を特定する。
【0028】
その具体的方法の一つとして、話題地域特定部23は、隣接関係辞書記憶部32が記憶する情報(隣接関係情報)を参照することによって、推定された複数の上位地名が相互に隣接するものであるか否かを判定し、隣接関係を有する上位地名のペアの関係を推移的に適用して得られる複数の前記上位地名の集合(この集合を求める具体的手順の例は、後で説明する)として表される話題地域を特定するものである。ここで、「隣接関係を有する上位地名のペアの関係を推移的に適用して得られる複数の前記上位地名の集合」とは、例えば、上位地名AとBとが隣接関係にあり、且つ上位地名BとCとが隣接関係にある場合に、推移律を適用して、上位地名AとBとC(集合)が隣接関係にあると判断する方法によるものである。
【0029】
さらに具体的な例として、話題地域特定部23は、前記テキストデータから抽出された前記中位地名の候補の集合を基に、上位地名ごとのスコアを算出して、相対的にスコアの良い上位地名を話題地域として特定する方法を用いることができる。上位地名のスコアは、所属関係情報(どの上位地名にどの中位地名が属するかを表す情報)に基づいて、当該上位地名に属する前記中位地名の候補の各々についての当該中位地名の候補が属するすべての上位地名の数の逆数の、当該上位地名に属する前記中位地名の候補のすべてについての和をとった値、として算出される。その具体的な手順については、後で説明する。
【0030】
例えば「朝日町」といった地名のように、複数の都道府県(上位地名)に存在する市町村名(中位地名)は、中位地名抽出部22によって中位地名候補であるとして抽出されても、話題地域に該当しない都道府県に存在する市町村名は、放棄されるべきものである。また、「朝日町」といった地名のように、中位地名でもあり得て、下位地名でもあり得る地名も、中位地名抽出部22によって中位地名候補であるとして抽出される場合がある。テキスト中の下位地名が誤って中位地名候補として抽出されてしまった場合には、その中位地名は放棄されるべきものである。話題地域特定部23は、上位地名を正しく推定することにより、中位地名抽出部22によって抽出された中位地名が、真に話題地域の中位地名であるか否かを判別する。話題地域特定部23による具体的な処理の手順については後でさらに詳細に説明する。
【0031】
下位地名抽出部24は、テキスト取得部21が取得したテキストデータから、下位地名を取得する。具体的には、下位地名抽出部24は、形態素解析処理と、ルールマッチングの処理とを用いることにより、テキストデータから下位地名を抽出する。また、下位地名抽出部24は、抽出した下位地名が、どの中位地名に含まれるものであるかを決定する。まず、下位地名抽出部24は、形態素解析処理の結果、地名であると判定された単語であって、上位地名でも中位地名でもない地名を、下位地名として抽出する。次に、下位地名抽出部24は、テキストデータが「地区」、「地域」、「周辺」などといった特殊な語尾を含む場合に、これらの特殊語尾と、その直前の単語とをまとめて下位地名として抽出する。これらの特殊語尾は、地名であることを表すものであり、地名語尾と呼んでもよい。また、下位地名抽出部24は、抽出した下位地名は、その下位地名が出現する箇所の直前の中位地名(その下位地名よりも前方向で最も近い中位地名)に属するというルールを用いて、下位地名が属する中位地名を決定する。ここで、中位地名は例えば市区町村名であり、下位地名は市区町村名よりも下位の字名等である。下位地名を抽出する手順の実例については、後で説明する。
【0032】
影響範囲抽出部25は、テキスト取得部21が取得したテキストデータに含まれる文が表す、程度の大きさ、あるいは被害の大きさ等(「影響範囲」と呼ぶ)の表現を抽出する。具体的には、影響範囲抽出部25は、テキストデータに含まれる数詞を含んだ表現を影響範囲の表現として抽出する。さらに具体的には、影響範囲抽出部25は、数字(数詞)と、その前後の単語の品詞とに基づき、所定のルールにしたがって、影響範囲の表現を抽出する。そのルールとは、例えば、次のようなルールである。
【0033】
ルール1:下記のパターンにマッチする列は、影響範囲の表現である。ただし、下記パターンにおいて、丸括弧で囲われる部分は省略可能な部分である。
パターン:{名詞または接頭語}+数詞(+接続助詞+数詞)(+{{名詞、ただし形容詞語幹以外}または並立助詞または形容詞}
なお、ここで、並立助詞とは、種々の語に付くことによって、2つ以上の言葉を対等の関係で接続するのに用いられる語である。
【0034】
ルール2:複数の影響範囲の表現が連続して出現する場合には、それらをまとめて1つの影響範囲の表現とする。
【0035】
ルール3:例えば、「2日」、「4時」、「10分」などの、日時を表す表現は、たとえルール1が規定するパターンにマッチしても、影響範囲の表現ではないものとして除外する。
【0036】
主題抽出部26は、テキスト取得部21が取得したテキストデータに含まれる文章の主題を抽出する。主題抽出部26は、テキストデータに含まれる動詞を含んだ表現を主題として抽出する。さらに具体的には、例えば、主題抽出部26は、まず、上記テキストデータの係り受け解析処理を行う。構文上の係り受けを解析する処理自体は、既存技術を用いて実現することができる。主題抽出部26は、一例として、既存の日本語係り受け解析器であるCaboChaを利用してもよい。そして、主題抽出部26は、係り受け解析の結果に基づき、動詞を含む節に、直接的に係る節をつなぐことによって主題を抽出する。ただし、このとき、主題抽出部26は、動詞を含む節に直接的に係る節であっても、影響範囲の表現(影響範囲抽出部25によって抽出される表現)や地名(中位地名抽出部22や下位地名抽出部24によって抽出される)を含む節を除外する。また、主題抽出部26は、上記の動詞が体言止めにしやすい動詞である場合には、当該動詞とその直前の助詞や助動詞を除去して、体言止めの形に変換する。体言止めにしやすい動詞とは、例えば、言う、する、なる、出す等の動詞である。なお、ある動詞が体言止めにしやすい動詞であるか否かの情報を、辞書データに予め持たせておいてその辞書を参照するようにしてもよい。
【0037】
主題抽出部26による処理の手順をまとめると、下の通りである。即ち、主題抽出部26は、次に列挙する手順により、主題を抽出し、また抽出された主題を整形する。
主題抽出の第1段階:主題抽出部26は、文の係り受け解析の結果を参照する。ある節が直接次の節に係っている場合に、主題抽出部26は、それらの節を1つにまとめる。
主題抽出の第2段階:主題抽出部26は、上記のまとまりのうち、動詞が含まれるまとまりを主題として抽出する。ただしこのとき、主題抽出部26は、主題になりにくい特定の動詞が含まれるまとまりについては対象から除外する。
主題抽出の第3段階:主題抽出部26は、上記の動詞を含む節に直接係る節をつなぐ。ただし、主題抽出部26は、地名や影響範囲の表現として抽出されたフレーズを含む節を飛び越えない範囲においてのみ、つなぐ節を選択する。
整形の第1段階:抽出された動詞が特定の動詞である場合には、主題抽出部26は、その動詞を除去して体言止めの形に整形する。
整形の第2段階:主題抽出部26は、要約データにふさわしくない表現(接続詞や、助動詞「ます」等)を除去する。
整形の第3段階:主題抽出部26は、動詞に後続する語、または動詞の後に否定を表す助動詞が続く場合にはその助動詞に後続する語を除去する。ここで、否定を表す助動詞とは、例えば「ない」や「ぬ」等である。
【0038】
要約生成部27は、話題地域特定部23が特定した話題地域の情報と、影響範囲抽出部25が抽出した影響範囲の情報と、主題抽出部26が抽出した主題の情報の、少なくとも一部を用いて、要約を生成する。具体的には、要約生成部27は、地名と、影響範囲の表現と、主題との組(ただし、前記地名または前記影響範囲の表現の少なくともいずれかが欠けていることを許容する組)に、予め記憶しておいた生成ルールを適用することによって要約を生成する。要約生成部27は、生成した要約のデータを、例えば画面に表示するなどといった方法で、ユーザーに提示する。
【0039】
地名辞書記憶部31は、地名に関する辞書のデータを記憶する。地名辞書記憶部31は、相対的に上位の地名と下位の地名との所属関係を表す情報を記憶するようにしてもよい。一例として、地名辞書記憶部31は、上位地名(例えば、都道府県名)と中位地名(例えば市区町村名)との間の地理的な所属関係(それらの地名が表す領域の包含/被包含関係)の情報(「所属関係情報」とも呼ぶ)を記憶してもよい。ここで言及した「所属関係情報」は、上位地名に属する中位地名の情報である。
【0040】
隣接関係辞書記憶部32は、地名と地名とが隣接関係にあるか否かを表す情報(「隣接関係情報」とも呼ぶ)を記憶する。特に、本実施形態において、上記の隣接関係情報は、上位地名のペアが隣接関係であるか否かを表す情報である。
【0041】
なお、地名辞書記憶部31が記憶する情報および隣接関係辞書記憶部32が記憶する情報を、「地名情報」と呼んでもよい。
【0042】
生成ルール記憶部33は、元のテキストデータから抽出された情報を基に要約を生成するためのルールを記憶する。具体的には、それらのルールは、地名や、影響範囲の表現や、主題を基に、要約のデータを生成するためのものである。生成ルールの例については、後で説明する。
【0043】
図2は、テキスト取得部21が取得するテキストデータの例を示す概略図である。同図(A)は、第1の例である「新潟県村上市は「避難準備の情報」を出したことに伴って、旧塩田町小学校、下北ゆり花会館、せんぽく会館の3か所で避難所を開設しました。」というニュース原稿のテキストを示す。同図(B)は、第2の例である「この大雨により、高梁市朝日町の3世帯8人に避難勧告が、また、岡山市の一部地域に避難準備の情報が出されています。」というニュース原稿のテキストを示す。このように、テキスト取得部21は、例えば、特定の地域における災害に関するニュースのテキストデータを取得する。ただし、ニュースの内容は、災害に限定されない。これらのニュースのテキストデータは、例えば、ニュース記者が書き、要約装置に入力するものである。
【0044】
図3は、地名辞書記憶部31が記憶する地名辞書のデータの構成例を示す概略図である。図示するように、地名辞書記憶部31は、例えば、上位地名、中位地名、所属といった項目を持つ表形式のデータとして、地名辞書を記憶する。なお、同図では、便宜的に、データの各行に行番号を付している。上位地名は、例えば、都道府県名である。また、中位地名は、例えば、市区町村名である。このデータは、上位地名と中位地名との包含関係をも表している。つまり、ある行を見たときに、上位地名に該当する地名は、中位地名に該当する地名を包含する。具体例として、行番号17を参照すると、東京都は、奥多摩町を参照する。他の行についても同様である。地名辞書記憶部31は、例えば、日本の全都道府県の名および全市区町村の名に関するデータを、この形式で保持する。また、図示する例において、所属の項目は、「区」が所属する上位の地名の情報を持つ。通常は、区が、都道府県に直接所属する場合(特別区の場合)と、市に所属する場合とがある。例えば、行番号4を参照すると、渋谷区が所属する上位の地名は東京都である。また、行番号21における西区が所属する上位の地名は、横浜市である。また、行番号33における幸区が所属する上位の地名は、川崎市である。区以外の中位地名である市町村に関しては、必ず都道府県に直接属するため、所属のデータ項目を使用する必要がない。この地名辞書記憶部31を参照することにより、中位地名がどの上位地名に属するかがわかる。
【0045】
図4は、隣接関係辞書記憶部32が記憶する隣接辞書のデータの構成例を示す概略図である。図示するように、隣接関係辞書記憶部32は、上位地名の対の集合を持つ表形式のデータを記憶する。なお、同図では、便宜的に、データの各行に行番号を付している。上位地名は、例えば、都道府県名である。一例として、行番号3の行は、東京都と山梨県との対のデータを持つ。これは、東京都と山梨県とが相互に隣接していることを表す。他の行のデータについても同様である。ここで、上位地名同士の隣接とは、必ずしも、両者の領域が接していることを表しているわけではない。例えば、行番号15の行は、奈良県と滋賀県とが隣接関係にあることを表しているが、これらの両県の領域が互いに接しているわけではない。しかしながら、例えば自然災害等のニュースを扱う場合に奈良県と滋賀県とを近隣の件として扱うことには意味があるため、隣接関係辞書記憶部32がこの両県の隣接関係の情報を記憶することは有用である。
【0046】
以下では、データの具体例を用いながら、各部の機能についてさらに詳細に説明する。
【0047】
中位地名抽出部22が行う処理の具体例は、次の通りである。例えば
図2(A)のテキストデータから、中位地名抽出部22は、「村上市」、「塩田町」という中位地名(市区町村名)を抽出する。また、例えば
図2(B)のテキストデータから、中位地名抽出部22は、「高梁市」、「朝日町」、「岡山市」という中位地名(市区町村名)を抽出する。
【0048】
図5は、話題地域特定部23による処理の手順を示すフローチャートである。以下、このフローチャートに沿って処理手順を説明する。
【0049】
ステップS11において、話題地域特定部23は、中位地名候補のリストを取得する。本実施形態において、中位地名は、市区町村名である。この中位地名候補のリストは、中位地名抽出部22が、入力されたテキストから抽出した中位地名のリストである。中位地名抽出部22は、地名辞書記憶部31を参照することによって、テキストから中位地名を抽出する。このとき、中位地名抽出部22は、例えば、入力テキストにおいて中位地名として使用されている地名も、中位地名としては使用されていないが地名辞書記憶部31が保持する中位地名と同一の字面を有する地名も、抽出してしまう可能性がある。本ステップにおいては、そういった中位地名候補をすべて含む可能性のあるリストを、話題地域特定部23は、中位地名抽出部22から受け取る。
【0050】
ステップS12において、話題地域特定部23は、上位地名スコアを算出する。上位地名スコアは、例えば、都道府県スコアである。話題地域特定部23は、地名辞書記憶部31を参照することにより、上位地名スコアを算出する。例えば、上位地名スコアを算出するための計算式は、下の式(1)である。
【0051】
上位地名スコア=Σ(1/当該中位地名を持つ上位地名の数) ・・・(1)
【0052】
式(1)により、上位地名ごとに上位地名スコアが算出される。式(1)における「Σ」は、算出対象である上位地名が、ある入力テキストについて中位地名抽出部22が抽出した中位地名候補のうちの当該上位地名に属する中位地名候補のすべてについての和をとる計算を表す。
【0053】
上位地名が都道府県名であり、中位地名が市区町村名である場合、上の式(1)は、下の式(2)と等価である。
【0054】
都道府県スコア=Σ(1/当該市区町村名を持つ都道府県の数) ・・・(2)
【0055】
式(2)により、都道府県ごとに都道府県スコアが算出される。式(2)における「Σ」は、算出対象である都道府県が、ある入力テキストについて中位地名抽出部22が抽出した市区町村名候補のうちの当該都道府県に属する市区町村名候補のすべてについての和をとる計算を表す。
【0056】
ステップS13において、話題地域特定部23は、ステップS12で算出されたスコアに基づき、最上位である上位地名(例えば、都道府県)を、話題地域と特定する。
【0057】
次に、ステップS14において、話題地域特定部23は、残りの上位地名(例えば、都道府県)のうち、スコアが最上位である上位地名が、既に話題地域であると判定された上位地名(複数の場合にはそのいずれか)と隣接するか否かを判定する処理を行う。なお、ある上位地名と別の上位地名とが隣接する関係にあるか否かは、話題地域特定部23が、隣接関係辞書記憶部32を参照することによって判定可能である。
【0058】
ステップS15では、ステップS14における判定処理の結果に応じて、分岐する。当該上位地名が、既に話題地域であると判定された上位地名(複数の場合にはそのいずれか)と隣接する場合(ステップS15:YES)には次のステップS16に進む。隣接しない場合(ステップS15:NO)にはステップS17に進む。
【0059】
ステップS16において、話題地域特定部23は、残りの上位地名(まだ話題地域に含まれていない上位地名)のうちのスコアが最上位である上位地名を、話題地域に追加する。本ステップの処理後、さらに話題地域に追加すべき上位地名が存在するか否かを判定するために、ステップS14に戻る。つまり、ステップS14,S15,S16の処理のループにより、話題地域特定部23は、隣接関係にある上位地名を繰り返し話題地域に追加していく。つまり、話題地域特定部23は、複数の上位地名のリストを話題地域として特定する場合がある。
【0060】
ステップS17に進んだ場合には、同ステップにおいて、話題地域特定部23は、話題地域であると判定した上位地名リストと、ステップS11において取得した中位地名候補であって且つこの上位地名リストのそれぞれに属する中位地名のリストを出力する。つまり、話題地域特定部23は、上位地名のリストと中位地名のリストとを出力することによって、元のテキストが対象とする話題地域を特定する。
【0061】
図6は、話題地域特定部23による処理の実例を説明するための、地名のデータおよびスコアのデータを示す概略図である。
【0062】
図6(A)は、中位地名抽出部22が抽出した中位地名のリストの例を示す。図示するように、この例では、中位地名抽出部22が抽出した中位地名は、岡山市、高梁市、および朝日町である。
図6(B)は、
図6(A)に含まれる中位地名の各々に対応して、話題地域特定部23が、地名辞書記憶部31を参照することによって求めた上位地名の情報を示す。図示するように、岡山市は、岡山県のみに対応する。これは、岡山市という中位地名を含む上位地名が岡山県のみであることが、地名辞書記憶部31に記憶されているデータから求められたことを表す。また、高梁市は、岡山県のみに対応する。これは、高梁市という中位地名を含む上位地名が岡山県のみであることが、地名辞書記憶部31に記憶されているデータから求められたことを表す。また、朝日町は、山形県と富山県と三重県と北海道と新潟県と福井県の6個の上位地名に対応する。これは、これら6個の上位地名がそれぞれ朝日町という中位地名を含み、且つ朝日町という中位地名を含む上位地名はこれら6個のみであることが、地名辞書記憶部31に記憶されているデータから求められたことを表す。
【0063】
図6(C)は、話題地域特定部23が算出する上位地名の各々のスコアである。このスコアは、前述の通り、式(1)を用いて、あるいはそれと等価な式(2)を用いて算出される。例えば、岡山県は、
図6(A)に挙げられている中位地名のうち、岡山市と高梁市とを所属メンバーとして持つ。そして、岡山市と高梁市のそれぞれに関して、「当該中位地名を持つ上位地名の数」は1である。言い換えれば、岡山市は岡山県にしか存在せず、高梁市は岡山県にしか存在しない。また、岡山県には朝日町は存在しない。したがって、式(1)により、岡山県のスコアは、(1/1+1/1)で、2.000と算出される。また、山形県は、
図6(A)に挙げられている中位地名のうち、朝日町を所属メンバーとして持つ。そして、この朝日町に関して、「当該中位地名を持つ上位地名の数」は6である。また岡山市や高梁市は、山形県のメンバーではない。したがって、式(1)により、山形県のスコアは、(1/6)で、0.167(小数点第4位を四捨五入)と算出される。富山県と三重県と北海道と新潟県と福井県の各上位地名のスコアも、上記の山形県のスコアと同様の計算手順により、0.167と算出される。
【0064】
図6に示したデータ処理の結果、話題地域特定部23は、岡山県のみを話題地域として特定する。富山県と三重県と北海道と新潟県と福井県とのそれぞれは、いずれも「朝日町」という中位地名をメンバーとして持つが、しかし、いずれも、岡山県との隣接関係を持たない。隣接関係の有無は、前述の通り、隣接関係辞書記憶部32を参照することによって判定される。また、話題地域である岡山県は、中位地名候補である岡山市と高梁市と朝日町とのうち、岡山市と高梁市とをメンバーとして持つ。よって、話題地域特定部23は、特定された話題地域の上位地名として岡山県を出力し、話題地域の中位地名として岡山市および高梁市を出力する。この場合には朝日町は、以後の処理においては、中位地名ではなかったものとして扱われる。
【0065】
図7は、下位地名抽出部24による下位地名抽出処理の例を説明するためのデータを示す概略図である。同図は、1本のニュース記事のテキストを示している。このニュース記事は、3つの文で構成される。ここでは、各文に、便宜的にS1、S2、S3という記号を付与している。S1の文は、「この大雨により,高梁市 朝日町 の3世帯8人に避難勧告が出されています.」である。S2の文は、「また,岡山市 の一部地域に避難準備の情報が出されています.」である。S3の文は、「消防によりますと,高梁市 の山間にある 山田地区 では床上まで水に浸かった住宅があるとのことです.」である。形態素解析処理を行うことにより、下位地名抽出部24は、S1の文に含まれる「高梁市」および「朝日町」と、S2の文に含まれる「岡山市」と、S3の文に含まれる「高梁市」とを、地名として抽出する。これらのうち、「高梁市」と「岡山市」とは、既に、話題地域特定部23の処理により、話題地域における中位地名であるとして特定されている。したがって、下位地名抽出部24は、上に列挙した地名のうち、「朝日町」のみを下位地名として抽出する。さらに、下位地名抽出部24は、ルールマッチング処理による下位地名抽出を行う。即ち、下位地名抽出部24は、「地区」という単語とのマッチングにより、「山田地区」という単語を下位地名として抽出する。
【0066】
なお、下位地名抽出部24は、形態素解析処理によって抽出した下位地名の集合と、ルールマッチング処理によって抽出した下位地名の集合との、和集合を、下位地名として抽出する。
【0067】
以上の処理により、下位地名抽出部24は、S1、S2、S3の3文からなるテキストから、次の地名列を抽出する。その地名列とは、「高梁市」(中位地名)-「朝日町」(下位地名)-「岡山市」(中位地名)-「高梁市」(中位地名)-「山田地区」(下位地名)である。この地名列における地名の順序は、元のテキストデータにおける出現順序と一致している。そして、下位地名抽出部24は、抽出された下位地名がどの中位地名に属するかを決定する。前述の通り、下位地名の出現箇所の、直前の中位地名が、当該下位地名の属する中位地名である。つまり、この例では、下位地名抽出部24は、下位地名「朝日町」は直前に出現する中位地名「高梁市」に属するものであることを決定する。また、下位地名抽出部24は、下位地名「山田地区」もまた直前に出現する中位地名「高梁市」に属するものであることを決定する。つまり、
図7のテキストデータの例を基に処理した場合、下位地名抽出部24は、高梁市(中位地名)-朝日町(下位地名)という関係と、高梁市(中位地名)-山田地区(下位地名)という関係とを抽出する。
【0068】
図8は、影響範囲抽出部25が抽出する影響範囲の表現の具体例を示す概略図である。
図8(A)は、テキスト取得部21が取得したテキストデータの一部を示している。ここに示すテキストデータは、ある1文の途中部分のみである。その途中部分とは「で3世帯の合わせて11人に避難勧告が」というものである。
図8(B)は、
図8(A)のテキストに対応する形態素解析処理の結果である。図示するように、形態素解析処理の結果は、元のテキストから抽出されたそれぞれの形態素と、対応する品詞の情報とを持つ。なお、
図8(B)では、各形態素(この表の各行)に便宜的に番号を付与している。影響範囲抽出部25は、形態素解析の結果を表すデータを参照しながら、前述の影響範囲の表現の抽出のためのルールに基づいて、影響範囲の表現を見つける。
図8(B)に示すように、このテキスト例での形態素解析処理の結果は、(番号1,形態素:で,品詞:助詞)-(番号2,形態素:3,品詞:数詞)-(番号3,形態素:世帯,品詞:名詞)-(番号4,形態素:の,品詞:助詞)-(番号5,形態素:合わせ,品詞:動詞)-(番号6,形態素:て,品詞:助詞)-(番号7,形態素:11,品詞:数詞)-(番号8,形態素:人,品詞:名詞)-(番号9,形態素:に,品詞:助詞)-(番号10,形態素:避難勧告,品詞:名詞)-(番号11,形態素:が,品詞:助詞)である。
【0069】
影響範囲抽出部25は、上記の形態素解析処理結果と、前述の「ルール1」が規定するパターンとのマッチングを行い、その結果として、「3世帯」および「11人」という、2つの影響範囲の表現を抽出する。また、この例では、前述の「ルール2」および「ルール3」は適用されない。
【0070】
図9は、影響範囲抽出部25が抽出する影響範囲の表現の別の具体例を示す概略図である。
図9(A)は、テキスト取得部21が取得したテキストデータの一部を示している。図示するテキストデータは、ある1文の途中部分のみであり、「で2棟の住宅が」というものである。
図9(B)は、
図9(A)のテキストに対応する形態素解析処理の結果である。
図9(B)に示すように、このテキスト例での形態素解析処理の結果は、(番号1,形態素:で,品詞:助詞)-(番号2,形態素:2,品詞:数詞)-(番号3,形態素:棟,品詞:名詞)-(番号4,形態素:の,品詞:助詞)-(番号5,形態素:住宅,品詞:名詞)-(番号6,形態素:が,品詞:助詞)である。
【0071】
影響範囲抽出部25は、上記の形態素解析処理結果と、前述の「ルール1」が規定するパターンとのマッチングを行い、その結果として、「2棟」という影響範囲の表現を抽出する。また、この例では、前述の「ルール2」および「ルール3」は適用されない。
【0072】
図10は、主題抽出部26の処理を説明するための、文の係り受け解析結果の例を示す概略図である。ここに図示するデータは、「この/大雨により,/高梁市朝日町の/3世帯/8人に/避難勧告が/出されています./EOS」というテキスト(文例)の係り受け解析処理の結果を表している。なお「EOS」は文の終わりを示す記号である。係り受け解析結果のデータは、例えば、プレーンテキストの形式で得られるが、
図10では、便宜的に、行番号を付し、また節の区切りに横線を引いて示している。
【0073】
図10において、各節の先頭のアスタリスクの次の番号は、節を識別する整数値(節番号)である。最初の節の節番号は0であり、以下、1,2,3,・・・と続く。各節の節番号の次の、「D」が後続する整数値は、当該節が係る先の節番号である。係る先の節番号が「-1」である場合には、当該節が係る先の節はない。また、各節を構成する語のそれぞれについて、語に関する情報(品詞情報や読み方など)が記述されている。このデータが表す係り受け関係は、次の通りである。節番号0の節は「この」であり、節番号1の節に係る。節番号1の節は「大雨により,」であり、節番号6の節に係る。節番号2の節は「高梁市朝日町の」であり、節番号3の節に係る。節番号3の節は「3世帯」であり、節番号4の節に係る。節番号4の節は「8人に」であり、節番号6の節に係る。節番号5の節は「避難勧告が」であり、節番号6の節に係る。節番号6の節は「出されています.」であり、係り先の節はない(節番号として「-1」が記述されている)。
【0074】
そして、主題抽出部26は、次の手順により、主題を抽出する。
第1段階:まず、主題抽出部26は、係り受け解析の結果を参照することにより、ある節が直接次の節に係っている場合に、それらの節を1つにまとめる。つまり、
図10に示した例では、直接次の節に係っている箇所は、節番号0から1、節番号2から3、節番号3から4、節番号5から6、の4箇所である。これらの、次の節に係る節をまとめると、文は、「この大雨により,/高梁市朝日町の3世帯8人に/避難勧告が出されています.」(まとめた後、スラッシュが区切りの場所)となる。このまとまりを「チャンク」と呼んでもよい。
【0075】
第2段階:次に、主題抽出部26は、これらのまとまりのうち、動詞が含まれるまとまりを抽出する。但し、主題になりにくい動詞である「よる」や「あわせる」等を除外する。なお、ある動詞が主題になりにくい動詞であるか否かの情報を、辞書データに予め持たせておいてその辞書を参照するようにしてもよい。その結果、主題になり得る動詞が含まれるまとまりとして、「避難勧告が出されています」のみが抽出される。
【0076】
第3段階:次に、主題抽出部26は、動詞を含む節に直接かかる節をつなぐ。ただし、地名や影響範囲の表現として抽出されたフレーズを含む節を飛び越えない範囲においてのみ、つなぐ節を選択する。
図10に示した例では、「8人に」という節は動詞を含む「出されています」に直接係っているが、影響範囲抽出部25によって既に抽出済みの表現であるので、主題抽出部26は、動詞につなぐことを行わない。また、他の部分である「この大雨により,」や「高梁市朝日町の3世帯」は、動詞を含む「出されています」に直接係ってはいないので、主題抽出部26は、これらを抽出しない。
【0077】
なお、他の文例の場合、主題抽出部26が主題を抽出する処理は、次の通りである。例えば、元の文が「あわせて12か所に避難所を設置し,避難するように呼びかけています」の場合、主題抽出部26は、上記の手順にしたがい、主題として「避難所を設置し,避難するように呼びかけています」を抽出する。また、元の文が「自宅が被害を受けた住民向けに,応急処置に使うためのブルーシートを配布しています」の場合、主題抽出部26は、上記の手順にしたがい、主題として、「応急処置に使う」と「応急処置に使うためのブルーシートを配布しています」の2つを抽出する。
【0078】
そして、主題抽出部26は、次の手順により、抽出された主題を整形する処理を行う。
第1段階:抽出された動詞が特定のものである場合には、その動詞を除去して体言止めの形に整形する。特定の動詞とは、例えば、「言う」、「なる」、「出す」等である。整形段階において除去すべき動詞の情報を予め辞書データとして持っておいて、主題抽出部26がその辞書データを参照することによって除去すべき動詞であるか否かを判断するようにしてもよい。例えば、「避難勧告が出されています.」という表現が主題として抽出されている場合、動詞「出す」は、体言止めへの整形のために除去すべきものであるので、主題抽出部26は、動詞「出す」の直前の名詞である「勧告」より後ろの文言をすべて除去する。即ち、主題抽出部26は、「避難勧告が出されています.」という表現を、「避難勧告」という表現に整形する。
【0079】
第2段階:接続詞や、助動詞「ます」といった、要約データにふさわしくない表現を除去する。主題抽出部26は、抽出された主題の表現が特定の接続詞や助動詞を含む場合、直前の動詞等を残し、それより後ろの文言をすべて除去する。例えば、主題抽出部26は、「避難所を設置し,避難するように呼びかけています」という表現を、「避難所を設置し,避難するように呼びかけ」という表現に整形する。
【0080】
第3段階:動詞に後続する語を除去する。但し、動詞の後に否定を表す助動詞が続く場合には、その助動詞までの単語を残し、その助動詞に後続する語を除去する。否定を表す助動詞とは、例えば「ない」や「ぬ」等である。例えば、抽出された主題が「復旧のメドは立っていないとのことです」である場合、主題抽出部26は、動詞「立つ」に後続する助動詞「ない」(否定)までを残し、その後ろの語を除去する。つまり、主題抽出部26は、「復旧のメドは立っていないとのことです」という表現を、「復旧のメドは立っていない」に整形する。
【0081】
図11は、要約生成部27による処理の手順を示すフローチャートである。以下、このフローチャートに沿って、処理を説明する。
【0082】
ステップS21において、要約生成部27は、1つの文から抽出された複数の主題のうち、重複する内容のものを除去する。前述の主題抽出部26の処理では、1つの文から複数の主題を抽出する場合がある。要約生成部27は、これらのうち、主題間の単語の重なり度合いによって、一部の主題を除去する場合がある。具体的には、要約生成部27は、抽出された主題間で、単語の重複度合いを算出する。要約生成部27は、ある主題に含まれる単語のうち、他の主題に含まれる単語の占める割合を重複度合いとして求める。重複度合いが60%以上である主題のペアが存在する場合、要約生成部27は、そのペアのうちの、より多くの単語が含まれる主題のみを残し、他方の主題を除去する。
【0083】
ステップS22において、要約生成部27は、地名と影響範囲とを関連付ける。ここで、地名は、中位地名抽出部22あるいは下位地名抽出部24が抽出した地名である。また、影響範囲は、影響範囲抽出部25が抽出した影響範囲の表現である。元の文において、ある地名が出現した後、別の地名が出現するまでの間に、単数または複数の影響範囲の表現が出現した場合、それらの影響範囲の表現は、先に出現した側の地名の場所で起きているものであると推定できる。これにより、要約生成部27は、地名と影響範囲の表現とを関連付ける。
【0084】
ステップS23において、要約生成部27は、主題を、(地名+影響範囲)と関連付ける。文において、(地名+影響範囲)が出現して以後、次の主題が出現した場合、要約生成部27は、その(地名+影響範囲)を、その主題と関連付ける。
【0085】
ステップS21からS23までの処理により、要約生成部27は、(地名,影響範囲,主題)の組を特定した。ある組の中における地名と影響範囲と主題とは、ステップS22およびS23の処理において関連付けられたものである。なお、要約生成部27は、1つの文を基に、複数の(地名,影響範囲,主題)の組を特定する場合もある。また、(地名,影響範囲,主題)の組において、地名が含まれない場合や、影響範囲の表現が含まれない場合があり得る。
【0086】
ステップS24において、要約生成部27は、(地名,影響範囲,主題)の組のそれぞれに対して、生成ルール記憶部33から読み出したルールを適用することによって、要約表現を生成する。なお、要約を生成するためのルールについては、次に説明する。
【0087】
図12は、生成ルール記憶部33が記憶する、要約表現の生成のためのルールの例を示す概略図である。ここでは、同図は、ルール1から3までの3つのルールを示しているが、生成ルール記憶部33が記憶するルールの数は任意である。各ルールは、適用の前提となる条件と、その条件が満たされた場合に生成される要約表現とのペアとして記述されている。
【0088】
ルール1の条件は、組に中位地名が含まれることである。この条件が満たされる場合に、要約生成部27が「<主題> <中位地名> <影響範囲>」という要約の表現を生成すべきものであることを、このルール1は規定する。
ルール2の条件は、組に中位地名が含まれ、且つ下位地名が含まれることである。この条件が満たされる場合に、要約生成部27が「<主題> <中位地名> <下位地名のリスト>」という要約の表現を生成すべきものであることを、このルール2は規定する。
ルール3の条件は、組に地名が含まれないことである。この条件が満たされる場合に、要約生成部27が「<主題>」という要約の表現を生成すべきものであることを、このルール3は規定する。
【0089】
上記のルール1から3までの各々を適用して生成される要約文の例は、次の通りである。
要約生成部27がルール1を適用して生成する要約の一例は、「避難勧告 玉野市 2398世帯8961人」である。要約生成部27がルール1を適用して生成する要約の他の例は、「土砂災害のおそれが高まる 玉野市」である。なお、この要約には、影響範囲の表現がない。
要約生成部27がルール2を適用して生成する要約の一例は、「避難勧告 玉野市 日々地区 和田地区 渋川地区」である。要約生成部27がルール2を適用して生成する要約の他の例は、「村上市 旧塩田町小学校 下北ゆり花会館 せんぽく会館」である。
要約生成部27がルール3を適用して生成する要約の一例は、「避難所を設置し,避難するように呼びかける」である。要約生成部27がルール3を適用して生成する要約の他の例は、「二次災害のおそれがあることから復旧のメドは立っていない」である。
【0090】
図13は、要約装置1の全体的な処理の手順を示すフローチャートである。以下、このフローチャートに沿って説明する。
【0091】
ステップS31において、テキスト取得部21は、外部から、テキストデータを取得する。このテキストデータは、例えば、報道番組用のニュース原稿である。
ステップS32において、中位地名抽出部22は、テキスト取得部21が取得したテキストデータから、中位地名の候補を抽出する。
ステップS33において、話題地域特定部23は、中位地名抽出部22が抽出した中位地名の候補のリストを基に、話題地域を特定する。話題地域特定部23は、特定された話題地域について、上位地名および中位地名の情報を出力する。
ステップS34において、下位低迷抽出部24は、テキスト取得部21が取得したテキストデータから、下位地名を抽出する。
ステップS35において、影響範囲抽出部25は、テキスト取得部21が取得したテキストデータから、影響範囲の表現を抽出する。
ステップS36において、主題抽出部26は、テキスト取得部21が取得したテキストデータから、主題を抽出する。
ステップS37において、要約生成部33は、話題地域特定部によって特定された話題地域の地名と影響範囲の表現と主題の組(組内の一部の情報が欠けていてもよい)に基づいて、生成ルール記憶部33から読み出したルールを適用して、要約を生成する。
【0092】
なお、要約装置1が生成した要約のテキストは、例えば、放送用あるいはウェブ配信用等のデータとして用いることができる。要約装置1が生成した要約のテキストを自動的に配信してもよいし、そのテキストの中から人等が適宜選択したテキストのみを配信するようにしてもよい。
【0093】
本実施形態およびその変形例について、まとめると、次の通りである。
【0094】
(1)要約装置1は、少なくとも、テキスト取得部21と、地名抽出部と、影響範囲抽出部25と、主題抽出部26と、要約生成部27とを備える。テキスト取得部21は、テキストデータを取得する。地名抽出部は、形態素解析処理を行うことによって、あるいは、予め記憶されている地名情報(例えば、地名辞書記憶部31や隣接関係辞書記憶部32)を参照することによって、前記テキストデータから地名を抽出する。影響範囲抽出部25は、前記テキストデータに含まれる数詞を含んだ表現を影響範囲の表現として抽出する。主題抽出部26は、前記テキストデータに含まれる動詞を含んだ表現を主題として抽出する。要約生成部27は、前記地名と、前記影響範囲の表現と、前記主題との組に、予め記憶しておいた生成ルールを適用することによって要約を生成する。ただし、上記の組は、前記地名または前記影響範囲の表現の少なくともいずれかが欠けていることを許容するものである。
【0095】
なお、変形例として、地名は、特に、上位-中位-下位の階層として構成されていなくてもよい。その場合にも、地名抽出部は、形態素解析処理を行うことによって、あるいは、地名情報を参照することによって、前記テキストデータから地名を抽出することができる。そのようにして抽出された地名を基に、要約生成部27は要約を生成してもよい。
【0096】
(2)前記地名は、階層構成として、上位地名と中位地名と下位地名とを含むものであってもよい。この場合、前記地名情報は、前記上位地名に属する前記中位地名の情報である所属関係情報を含むものである。また、要約装置1は、前記地名抽出部(中位地名抽出部22等)が抽出した地名に基づいて話題地域を特定する話題地域特定部23をさらに備える。この話題地域特定部23は、前記地名抽出部が抽出した前記中位地名の候補の集合を基に、前記テキストデータが話題の対象とする上位地名を推定することによって、前記上位地名によって表される前記話題地域を特定するものである。つまり、所属関係情報に基づき、話題地域特定部23は、テキストデータ中に出現した中位地名(候補)の集合から、その集合の要素である中位地名がどの上位地名に属する傾向にあるかを特定し、それによって話題地域として、上位地名を特定する。ここで、上位地名は、1つでも複数でもよい。つまり、中位地名がたまたま複数の上位地名に属する(具体例としては、同一の名称を有する別々の市区町村が、複数の都道府県に属する)場合でも、上記の中位地名(候補)の集合が、どの上位地名に分布しているかを統計的に把握することにより、話題地域特定部23は、話題地域を特定することができる。そのための計算方法の一例は既に式(1)あるいは式(2)として説明したが、それ以外の計算方法によって話題地域を特定してもよい。
【0097】
(3)前記地名情報は、前記上位地名のペアが隣接関係であるか否かを表す隣接関係情報を含むものであってもよい。話題地域特定部23は、前記隣接関係情報を参照することによって、推定された複数の前記上位地名が相互に隣接するものであるか否かを判定する。これにより、話題地域特定部23は、隣接関係を有する上位地名のペアの関係を推移的に適用して得られる複数の前記上位地名の集合として表される前記話題地域を特定することもできる。
【0098】
(4)具体的な例として、話題地域特定部23は、前記地名情報を参照することによって前記テキストデータから抽出された前記中位地名の候補の集合を基に、上位地名のスコアを算出して、相対的にスコアの良い前記上位地名を前記話題地域として特定するものである。この上位地名のスコアは、前記所属関係情報に基づいて、当該上位地名に属する前記中位地名の候補の各々についての当該中位地名の候補が属するすべての上位地名の数の逆数の、当該上位地名に属する前記中位地名の候補のすべてについての和をとった値、として算出される。
【0099】
変形例として、他の統計的な計算方法によって、上位地名が話題地域であるらしさを算出してもよい。
【0100】
(5)下位地名抽出部24(単に「地名抽出部」とも呼ばれる)は、既に具体的に説明したように、前記形態素解析処理を行うことによって抽出された前記地名のうち、前記上位地名および前記中位地名のいずれにも特定されなかった地名を前記下位地名として抽出し、且つ、当該下位地名を、当該下位地名に先立って前記テキストデータ内で出現する前記中位地名のうちの当該下位地名に最も近い位置に出現する前記中位地名に属する下位地名として抽出するものであってよい。
【0101】
(6)この下位地名抽出部24は、さらに、既に具体的に説明したように、地名であることを推定させる特定のキーワード(「地区」、「地域」等)を伴う名詞(例えば「山田地区」)を、さらに、前記下位地名として抽出し、且つ、当該下位地名を、当該下位地名に先立って前記テキストデータ内で出現する前記中位地名のうちの当該下位地名に最も近い位置に出現する前記中位地名に属する下位地名として抽出するものであってよい。
【0102】
以上説明した実施形態によると、要約装置1は、ニュース原稿等のテキストデータを基に、その要約を出力することができる。また、要約装置1は、機械学習で得たモデルを用いて要約を出力するものではなく、ルールおよびアルゴリズムに基づいて要約を生成する処理を行うものである。つまり、要約装置1が出力する要約は、機械学習データに依存して得られるものではなく、予測可能性の高いものである。また、要約装置1は、出力する文数等について制約を受けるものではなく、複数の(場合によっては多数の)要約文を出力することができ、即ち、入力テキストデータに含まれる情報を網羅した要約データを出力することができる。
【0103】
また、要約装置1は、上位地名に属する中位地名の集合の情報を予め地名辞書記憶部31に持ち、その地名辞書記憶部31を参照しながら処理することにより、テキスト中に出現する中位地名候補の集合を基に、適切に、話題地域(話題の対象である上位地名)を特定することができる。また、要約装置1は、上位地名同士が隣接関係であるか否かの情報を予め隣接関係辞書記憶部32に持ち、その隣接関係辞書記憶部32を参照しながら処理することにより、近隣の上位地名を、ひとまとめの話題地域として特定することができる。
【0104】
要約装置1を用いることにより、要約データ専用のテキストを人手で作ることを必要とせず、ニュース原稿とのテキストデータを基に自動的に生成した要約を、通信ネットワークや、テレビ放送の画面あるいは字幕テキストや、各所に設けられるデジタルサイネージ等で配信することが可能となる。例えば、災害時等、豊富な要約データを必要とする状況においても、そのための人員をわざわざ配置する必要がなくなる。
【0105】
なお、上述した実施形態(変形例を含む)における要約装置の少なくとも一部の機能をコンピューターで実現することができる。その場合、この機能を実現するためのプログラムをコンピューター読み取り可能な記録媒体に記録して、この記録媒体に記録されたプログラムをコンピューターシステムに読み込ませ、実行することによって実現しても良い。なお、ここでいう「コンピューターシステム」とは、OSや周辺機器等のハードウェアを含むものとする。また、「コンピューター読み取り可能な記録媒体」とは、フレキシブルディスク、光磁気ディスク、ROM、CD-ROM、DVD-ROM、USBメモリー等の可搬媒体、コンピューターシステムに内蔵されるハードディスク等の記憶装置のことをいう。さらに「コンピューター読み取り可能な記録媒体」とは、インターネット等のネットワークや電話回線等の通信回線を介してプログラムを送信する場合の通信線のように、一時的に、動的にプログラムを保持するもの、その場合のサーバーやクライアントとなるコンピューターシステム内部の揮発性メモリーのように、一定時間プログラムを保持しているものも含んでも良い。また上記プログラムは、前述した機能の一部を実現するためのものであっても良く、さらに前述した機能をコンピューターシステムにすでに記録されているプログラムとの組み合わせで実現できるものであっても良い。
【0106】
以上、複数の実施形態を説明したが、本発明はさらに次のような変形例でも実施することが可能である。
例えば、上の実施形態では、各機能部が形態素解析処理を行う形でも実現可能である。一方で、元のテキストデータに対して、1回だけ形態素解析処理を行い、その結果を各部が参照するようにしてもよい。
【0107】
以上、この発明の実施形態について図面を参照して詳述してきたが、具体的な構成はこの実施形態に限られるものではなく、この発明の要旨を逸脱しない範囲の設計等も含まれる。
【産業上の利用可能性】
【0108】
本発明は、例えば、放送事業や、コンテンツ配信の事業等に利用することができる。但し、本発明の利用範囲はここに例示したものには限られない。
【符号の説明】
【0109】
1 要約装置
21 テキスト取得部
22 中位地名抽出部(地名抽出部)
23 話題地域特定部
24 下位地名抽出部(地名抽出部)
25 影響範囲抽出部
26 主題抽出部
27 要約生成部
31 地名辞書記憶部(地名情報を記憶する記憶部)
32 隣接関係辞書記憶部
33 生成ルール記憶部