(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023157403
(43)【公開日】2023-10-26
(54)【発明の名称】文章の要約化システムとその方法ならびにその装置およびそのプログラム
(51)【国際特許分類】
G06F 40/279 20200101AFI20231019BHJP
G06F 16/383 20190101ALI20231019BHJP
G06F 40/117 20200101ALI20231019BHJP
【FI】
G06F40/279
G06F16/383
G06F40/117
【審査請求】未請求
【請求項の数】12
【出願形態】OL
(21)【出願番号】P 2022067298
(22)【出願日】2022-04-15
(71)【出願人】
【識別番号】519210295
【氏名又は名称】株式会社NSD先端技術研究所
(74)【代理人】
【識別番号】100141221
【弁理士】
【氏名又は名称】山田 和明
(74)【代理人】
【識別番号】100091764
【弁理士】
【氏名又は名称】窪谷 剛至
(74)【代理人】
【識別番号】100103366
【弁理士】
【氏名又は名称】鈴木 礼至
(72)【発明者】
【氏名】ソロビヨフ・イワン
(72)【発明者】
【氏名】曽根 雄太
【テーマコード(参考)】
5B091
5B109
5B175
【Fターム(参考)】
5B091AA15
5B091CA21
5B109NH20
5B175FB01
5B175HB03
(57)【要約】
【課題】本文全体を的確かつ明瞭に要約化する。
【解決手段】本文Tを、先頭の文章(文
1)から5つの文章毎に2つのブロックとして切り出し、1文ずつずらして順次ブロックを切り出す切り出し部10と、これら文章を数値化してベクトル空間に埋め込む分散表現部11と、この分散表現に対しコサイン類似度の高低を判別する類似度判別部12と、文章同士の類似度が高いと判別された文章同士を同一のトピックとみなし、低いと判別された文章同士を異なるトピックとみなしてトピックの切り替わる位置を推定しトピック毎に分割するトピック分割部13と、トピック分割された文章を順に、事前学習済みモデルを抽出型要約モデルに入力し、出力され要約された文章を結合し、本文の要約済み文章を作成する抽出型要約部14とを備え、本文の文章全体をトピック毎に分割し、トピック毎に文章を要約化して本文の要約済み文章を作成する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
複数の文章を含む本文を、先頭の文章から所定の数毎に連続する2つのブロックとして切り出し、このブロックを1文ずつずらせては順次切り出しを行うとともに、順次切り出されたブロック毎にブロック内の文章をベクトル化して類似度を判別し、判別された類似度に応じてトピックの切り替わりを推定してトピックを分割し、分割されたトピック毎に文章を要約化することを特徴とする文章の要約化システム。
【請求項2】
複数の文章を含む本文を、先頭の文章から所定の数の文章毎に連続する2つのブロックとして切り出すとともに1文ずつずらしながら順次ブロックを切り出す切り出し部と、
これら文章を数値化してベクトル空間に埋め込む分散表現部と、
この分散表現に対しコサイン類似度の高低を判別する類似度判別部と、
文章同士の類似度が高いと判別された文章同士を同一のトピックとみなし、低いと判別された文章同士を異なるトピックとみなしてトピックの切り替わる位置を推定してトピック毎に分割するトピック分割部とを備えて構成され、
本文の文章全体をトピック毎に分割し、トピック毎に文章を要約化することを特徴とする文章の要約化システム。
【請求項3】
トピック分割された文章を順に、事前学習済みモデルをファインチューニングした抽出型要約モデルに入力し、出力され要約された文章を結合し、本文の要約済み文章を作成する抽出型要約部を備えて構成されることを特徴とする請求項2に記載の文章の要約化システム。
【請求項4】
複数の文章を含む本文を、先頭の文章から所定の数毎に連続する2つのブロックとして切り出し、このブロックを1文ずつずらせては順次切り出しを行うステップと、切り出される度に切り出されたブロック内の文章をベクトル化して類似度を判別するステップと、判別された類似度に応じてトピックの切り替わりを推定してトピックを分割するステップとを有し、分割されたトピック毎に文章を要約化することを特徴とする文章の要約化方法。
【請求項5】
複数の文章を含む本文を、先頭の文章から所定の数の文章毎に連続する2つのブロックとして切り出すとともに1文ずつずらしながら順次ブロックを切り出す切り出し部と、
これら文章を数値化してベクトル空間に埋め込む分散表現部と、
この分散表現に対し類似度の高低を判別する類似度判別部と、
文章同士の類似度が高いと判別された文章同士を同一のトピックとみなし、低いと判別された文章同士を異なるトピックとみなしてトピックの切り替わる位置を推定してトピック毎に分割するトピック分割部とを備え、
切り出し部により本文の先頭文の文章から所定の数毎に所定数の連続するブロックとして切り出す第1のステップと、
分散表現部により連続する2つのブロックのそれぞれの文章に対して文字表現をベクトル表現により分散表現する第2のステップと、
類似度判別部により分散表現の類似度の高低を判別して判別結果を出力する第3のステップと、
第3のステップ後、切り出し部により前記ブロックから1文をずらせて新たな連続する2つのブロックに切り分け、ブロックに切り分ける度に第2第3のステップを繰り返し、 最後の文章に達すると、トピック分割部により文章同士の類似度が高いと判別された文章同士を同一のトピックとみなし、低いと判別された文章同士を異なるトピックとみなしてトピックの切り替わる位置を推定してトピック毎に分割する第4のステップとを有し、
本文の文章全体をトピック毎に分割し、トピック毎に文章を要約化することを特徴とする文章の要約化方法。
【請求項6】
第4のステップ後、抽出型要約部によりトピック分割された文章を順に、事前学習済みモデルをファインチューニングした抽出型要約モデルに入力し、出力され要約された文章を結合し、本文の要約済み文章を作成することを特徴とする請求項5に記載の文章の要約化方法。
【請求項7】
複数の文章を含む本文を、先頭の文章から所定の数毎に連続する2つのブロックとして切り出し、このブロックを1文ずつずらせては順次切り出しを行うとともに、順次切り出されたブロック毎にブロック内の文章をベクトル化して類似度を判別し、判別された類似度に応じてトピックの切り替わりを推定してトピックを分割し、分割されたトピック毎に文章を要約化することを特徴とする文章の要約化装置。
【請求項8】
複数の文章を含む本文を、先頭の文章から所定の数の文章毎に連続する2つのブロックとして切り出すとともに1文ずつずらしながら順次ブロックを切り出す切り出し部と、
これら文章を数値化してベクトル空間に埋め込む分散表現部と、
この分散表現に対し類似度の高低を判別する類似度判別部と、
文章同士の類似度が高いと判別された文章同士を同一のトピックとみなし、低いと判別された文章同士を異なるトピックとみなしてトピックの切り替わる位置を推定してトピック毎に分割するトピック分割部とを備えて構成され、
本文の文章全体をトピック毎に分割し、トピック毎に文章を要約化することを特徴とする文章の要約化システム。
【請求項9】
トピック分割された文章を順に、事前学習済みモデルをファインチューニングした抽出型要約モデルに入力し、出力され要約された文章を結合し、本文の要約済み文章を作成する抽出型要約部を備えて構成されることを特徴とする請求項8に記載の文章の要約化装置。
【請求項10】
コンピュータに、
複数の文章を含む本文を、先頭の文章から所定の数毎に連続する2つのブロックとして切り出し、このブロックを1文ずつずらせては順次切り出しを行うことと、順次切り出されたブロック毎にブロック内の文章をベクトル化して類似度を判別することと、判別された類似度に応じてトピックの切り替わりを推定してトピックを分割することと、分割されたトピック毎に文章を要約化することとを実行させることを特徴とするプログラム。
【請求項11】
コンピュータに、
複数の文章を含む本文を、先頭の文章から所定の数の文章毎に連続する2つのブロックとして切り出すとともに1文ずつずらしながら順次ブロックを切り出すことと、これら文章の文字表現をベクトル表現により分散表現することと、この分散表現に対し類似度の高低を判別することと、文章同士の類似度が高いと判別された文章同士を同一のトピックとみなし、低いと判別された文章同士を異なるトピックとみなしてトピックの切り替わる位置を推定してトピック毎に分割することと、本文の文章全体をトピック毎に分割し、トピック毎に文章を要約化することとを実行させることを特徴とするプログラム。
【請求項12】
トピック分割された文章を順に、事前学習済みモデルをファインチューニングした抽出型要約モデルに入力し、出力され要約された文章を結合し、本文の要約済み文章を作成することを実行させることを特徴とする請求項11に記載のプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、会議における議事録やコールセンター等の通話記録に供される文章の要約化システムとその方法ならびにその装置およびそのプログラムに関するものである。
【背景技術】
【0002】
従来、会議や打ち合わせ等の議事録は、音声認識ステムにより文書としてテキスト化されたものを、担当者がマンパワーにより要約化していた。しかしながら、労力と時間がかかるため、近年、テキスト化された議事録を、簡素にまとめて要約化する文章の要約生成技術が提案されている(例えば、特許文献1参照)。この特許文献1に記載の技術では、要約処理前に、定型的な表現を不要文として不要文判定教師データテーブルに登録しておき、定型的な表現を除去して要約の精度を高めるようにしている。また、要約対象の文書から、出現順に一定数の文をウィンドウで切り出して、ウィンドウ内の文書を、分散表現を用いた抽出型要約技術で要約し、ウィンドウを一文ずつスライドさせてゆくことで文書全体の要約を生成するようにしている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、上記特許文献1では、不要文を削除することができるものの、不要文判定教師データテーブルに登録しなければならず手間がかかるという問題がある。また、不要文の判定にも時間がかかるだけでなく、判定が不十分であれば要約の精度が落ちてしまうという問題がある。さらに、要約対象の文書から、出現順に一定数の文をウィンドウで切り出す必要があるので、例えば、100行を10文ずつ切り出すにしても、ウィンドウを10文毎に1文ずつずらしながら何度も繰り返さなければならず、時間がかかってしまうという問題がある。また、本文(テキスト)を要約化するシステムにおいて、BERTのような事前学習済みモデルを使用した要約では、入力するトークン数が制限されるので、長文を入力長ごとに切り分ける必要がある。なお、ここでトークンとは、文章を意味のある単位に切り分けた単語をいう。しかしながら、トピックを挟んで切り分けてしまうと、入力した文章内で意味的関係が捉えづらくなったり、出力された要約にトピックが抜け落ちるという場合がある。
【0005】
本発明は上記課題を解決するためになされたもので、本文(テキスト)に対して、本文の構成要素としてのトピック(議題、話題、話題になる事柄や出来事、報告、予定)に注目し、トピックを切り分けて、トピック毎に要約化を図ることにより本文全体を、的確かつ明瞭に要約にすることができる文章の要約化システムとその方法ならびにその装置およびそのプログラムを提供することを目的としている。
【課題を解決するための手段】
【0006】
本発明の請求項1に係る文章の要約化システムは、複数の文章を含む本文を、先頭の文章から所定の数毎に連続する2つのブロックとして切り出し、このブロックを1文ずつずらせては順次切り出しを行うとともに、順次切り出されたブロック毎にブロック内の文章をベクトル化して類似度を判別し、判別された類似度に応じてトピックの切り替わりを推定してトピックを分割し、分割されたトピック毎に文章を要約化することを特徴とするものである。
【0007】
本発明の請求項1に係る文章の要約化システムでは、複数の文章を含む本文を、先頭の文章から所定の数毎に連続する2つのブロックとして切り出し、このブロックを1文ずつずらせては順次切り出しを行うとともに、順次切り出されたブロック毎にブロック内の文章をベクトル化して類似度を判別し、判別された類似度に応じてトピックの切り替わりを推定してトピックを分割し、分割されたトピック毎に文章を要約化することにより、分割されたそれぞれのトピックは、全体の中である話題について特定の傾向やまとまりとして表現されるので、トピック毎の要約は的確で明瞭なものとなり、冗長性が排され、本文全体の要約も、的確かつ明確化される。
【0008】
本発明の請求項2に係る文章の要約化システムは、複数の文章を含む本文を、先頭の文章から所定の数の文章毎に連続する2つのブロックとして切り出すとともに1文ずつずらしながら順次ブロックを切り出す切り出し部と、これら文章を数値化してベクトル空間に埋め込む分散表現部と、この分散表現に対しコサイン類似度の高低を判別する類似度判別部と、文章同士の類似度が高いと判別された文章同士を同一のトピックとみなし、低いと判別された文章同士を異なるトピックとみなしてトピックの切り替わる位置を推定してトピック毎に分割するトピック分割部とを備えて構成され、本文の文章全体をトピック毎に分割し、トピック毎に文章を要約化することを特徴とするものである。
【0009】
本発明の請求項2に係る文章の要約化システムでは、複数の文章を含む本文を、先頭の文章から所定の数の文章毎に連続する2つのブロックとして切り出すとともに1文ずつずらしながら順次ブロックを切り出す切り出し部と、これら文章を数値化してベクトル空間に埋め込む分散表現部と、この分散表現に対しコサイン類似度の高低を判別する類似度判別部と、文章同士の類似度が高いと判別された文章同士を同一のトピックとみなし、低いと判別された文章同士を異なるトピックとみなしてトピックの切り替わる位置を推定してトピック毎に分割するトピック分割部とを備えて構成され、本文の文章全体をトピック毎に分割し、トピック毎に文章を要約化することにより、トピックの切り替わる位置を確実に推定してトピック毎に分割することができる。このため、トピック毎の要約は的確で明瞭なものとなる。
【0010】
本発明の文章の要約化システムは、トピック分割された文章を順に、事前学習済みモデルをファインチューニングした抽出型要約モデルに入力し、出力され要約された文章を結合し、本文の要約済み文章を作成する抽出型要約部を備えて構成されるようにすることが好ましい。係る構成とすることにより、本文全体の要約も、自動化され、迅速に要約化することができる。
【0011】
本発明の請求項4に係る文章の要約化方法は、複数の文章を含む本文を、先頭の文章から所定の数毎に連続する2つのブロックとして切り出し、このブロックを1文ずつずらせては順次切り出しを行うステップと、切り出される度に切り出されたブロック内の文章をベクトル化して類似度を判別するステップと、判別された類似度に応じてトピックの切り替わりを推定してトピックを分割するステップとを有し、分割されたトピック毎に文章を要約化することを特徴とするものである。
【0012】
本発明の請求項4に係る文章の要約化方法では、複数の文章を含む本文を、先頭の文章から所定の数毎に連続する2つのブロックとして切り出し、このブロックを1文ずつずらせては順次切り出しを行うステップと、切り出される度に切り出されたブロック内の文章をベクトル化して類似度を判別するステップと、判別された類似度に応じてトピックの切り替わりを推定してトピックを分割するステップとを有し、分割されたトピック毎に文章を要約化することにより、先頭から順に分割されたそれぞれのトピックは、全体の中である話題について特定の傾向やまとまりとして表現されるので、トピック毎の要約は的確で明瞭なものとなり、冗長性が排され、本文全体の要約も、的確かつ明確化される。
【0013】
本発明の請求項5に係る文章の要約化方法は、複数の文章を含む本文を、先頭の文章から所定の数の文章毎に連続する2つのブロックとして切り出すとともに1文ずつずらしながら順次ブロックを切り出す切り出し部と、これら文章を数値化してベクトル空間に埋め込む分散表現部と、この分散表現に対し類似度の高低を判別する類似度判別部と、文章同士の類似度が高いと判別された文章同士を同一のトピックとみなし、低いと判別された文章同士を異なるトピックとみなしてトピックの切り替わる位置を推定してトピック毎に分割するトピック分割部とを備え、切り出し部により本文の先頭文の文章から所定の数毎に所定数の連続するブロックとして切り出す第1のステップと、分散表現部により連続する2つのブロックのそれぞれの文章に対して文字表現をベクトル表現により分散表現する第2のステップと、類似度判別部により分散表現の類似度の高低を判別して判別結果を出力する第3のステップと、第3のステップ後、切り出し部により前記ブロックから1文をずらせて新たな連続する2つのブロックに切り分け、ブロックに切り分ける度に第2第3のステップを繰り返し、 最後の文章に達すると、トピック分割部により文章同士の類似度が高いと判別された文章同士を同一のトピックとみなし、低いと判別された文章同士を異なるトピックとみなしてトピックの切り替わる位置を推定してトピック毎に分割する第4のステップとを有し、本文の文章全体をトピック毎に分割し、トピック毎に文章を要約化することを特徴とするものである。
【0014】
本発明の請求項5に係る文章の要約化方法では、複数の文章を含む本文を、先頭の文章から所定の数の文章毎に連続する2つのブロックとして切り出すとともに1文ずつずらしながら順次ブロックを切り出す切り出し部と、これら文章を数値化してベクトル空間に埋め込む分散表現部と、この分散表現に対し類似度の高低を判別する類似度判別部と、文章同士の類似度が高いと判別された文章同士を同一のトピックとみなし、低いと判別された文章同士を異なるトピックとみなしてトピックの切り替わる位置を推定してトピック毎に分割するトピック分割部とを備え、切り出し部により本文の先頭文の文章から所定の数毎に所定数の連続するブロックとして切り出す第1のステップと、分散表現部により連続する2つのブロックのそれぞれの文章に対して文字表現をベクトル表現により分散表現する第2のステップと、類似度判別部により分散表現の類似度の高低を判別して判別結果を出力する第3のステップと、第3のステップ後、切り出し部により前記ブロックから1文をずらせて新たな連続する2つのブロックに切り分け、ブロックに切り分ける度に第2第3のステップを繰り返し、最後の文章に達すると、トピック分割部により文章同士の類似度が高いと判別された文章同士を同一のトピックとみなし、低いと判別された文章同士を異なるトピックとみなしてトピックの切り替わる位置を推定してトピック毎に分割する第4のステップとを有し、本文の文章全体をトピック毎に分割し、トピック毎に文章を要約化することにより、トピックの切り替わる位置を先頭から順に確実に推定してトピック毎に分割することができる。このため、トピック毎の要約は的確で明瞭なものとなる。
【0015】
本発明の文章の要約化方法は、第4のステップ後、抽出型要約部によりトピック分割された文章を順に、事前学習済みモデルをファインチューニングした抽出型要約モデルに入力し、出力され要約された文章を結合し、本文の要約済み文章を作成することが好ましい。係る構成とすることにより、本文全体の要約も、自動化され、迅速に要約化することができる。
【0016】
本発明の請求項7に係る文章の要約化装置は、複数の文章を含む本文を、先頭の文章から所定の数毎に連続する2つのブロックとして切り出し、このブロックを1文ずつずらせては順次切り出しを行うとともに、順次切り出されたブロック毎にブロック内の文章をベクトル化して類似度を判別し、判別された類似度に応じてトピックの切り替わりを推定してトピックを分割し、分割されたトピック毎に文章を要約化することを特徴とするものである。
【0017】
本発明の請求項7に係る文章の要約化装置では、複数の文章を含む本文を、先頭の文章から所定の数毎に連続する2つのブロックとして切り出し、このブロックを1文ずつずらせては順次切り出しを行うとともに、順次切り出されたブロック毎にブロック内の文章をベクトル化して類似度を判別し、判別された類似度に応じてトピックの切り替わりを推定してトピックを分割し、分割されたトピック毎に文章を要約化することにより、分割されたそれぞれのトピックは、全体の中である話題について特定の傾向やまとまりとして表現されるので、トピック毎の要約は的確で明瞭なものとなり、冗長性が排され、本文全体の要約も、的確かつ明確化される。
【0018】
本発明の請求項8に係る文章の要約化装置は、複数の文章を含む本文を、先頭の文章から所定の数の文章毎に連続する2つのブロックとして切り出すとともに1文ずつずらしながら順次ブロックを切り出す切り出し部と、これら文章を数値化してベクトル空間に埋め込む分散表現部と、この分散表現に対し類似度の高低を判別する類似度判別部と、文章同士の類似度が高いと判別された文章同士を同一のトピックとみなし、低いと判別された文章同士を異なるトピックとみなしてトピックの切り替わる位置を推定してトピック毎に分割するトピック分割部とを備えて構成され、本文の文章全体をトピック毎に分割し、トピック毎に文章を要約化することを特徴とするものである。
【0019】
本発明の請求項8に係る文章の要約化装置では、複数の文章を含む本文を、先頭の文章から所定の数の文章毎に連続する2つのブロックとして切り出すとともに1文ずつずらしながら順次ブロックを切り出す切り出し部と、これら文章を数値化してベクトル空間に埋め込む分散表現部と、この分散表現に対し類似度の高低を判別する類似度判別部と、文章同士の類似度が高いと判別された文章同士を同一のトピックとみなし、低いと判別された文章同士を異なるトピックとみなしてトピックの切り替わる位置を推定してトピック毎に分割するトピック分割部とを備えて構成され、本文の文章全体をトピック毎に分割し、トピック毎に文章を要約化することにより、トピックの切り替わる位置を確実に推定してトピック毎に分割することができる。このため、トピック毎の要約は的確で明瞭なものとなる。
【0020】
本発明の文章の要約化装置は、トピック分割された文章を順に、事前学習済みモデルをファインチューニングした抽出型要約モデルに入力し、出力され要約された文章を結合し、本文の要約済み文章を作成する抽出型要約部を備えて構成されることが好ましい。係る構成とすることにより、本文全体の要約も、自動化され、迅速に要約化することができる。
【0021】
本発明の請求項10に係るプログラムは、コンピュータに、複数の文章を含む本文を、先頭の文章から所定の数毎に連続する2つのブロックとして切り出し、このブロックを1文ずつずらせては順次切り出しを行うことと、順次切り出されたブロック毎にブロック内の文章をベクトル化して類似度を判別することと、判別された類似度に応じてトピックの切り替わりを推定してトピックを分割することと、分割されたトピック毎に文章を要約化することとを実行させることを特徴とするものである。
【0022】
本発明の請求項10に係るプログラムでは、コンピュータに、複数の文章を含む本文を、先頭の文章から所定の数毎に連続する2つのブロックとして切り出し、このブロックを1文ずつずらせては順次切り出しを行うことと、順次切り出されたブロック毎にブロック内の文章をベクトル化して類似度を判別することと、判別された類似度に応じてトピックの切り替わりを推定してトピックを分割することと、分割されたトピック毎に文章を要約化することとを実行させることにより、分割されたそれぞれのトピックは、全体の中である話題について特定の傾向やまとまりとして表現されるので、トピック毎の要約は的確で明瞭なものとなり、冗長性が排され、本文全体の要約も、的確かつ明確化される。
【0023】
本発明の請求項11に係るプログラムは、コンピュータに、複数の文章を含む本文を、先頭の文章から所定の数の文章毎に連続する2つのブロックとして切り出すとともに1文ずつずらしながら順次ブロックを切り出すことと、これら文章の文字表現をベクトル表現により分散表現することと、この分散表現に対し類似度の高低を判別することと、文章同士の類似度が高いと判別された文章同士を同一のトピックとみなし、低いと判別された文章同士を異なるトピックとみなしてトピックの切り替わる位置を推定してトピック毎に分割することと、本文の文章全体をトピック毎に分割し、トピック毎に文章を要約化することとを実行させることを特徴とするものである。
【0024】
本発明の請求項11に係るプログラムでは、コンピュータに、複数の文章を含む本文を、先頭の文章から所定の数の文章毎に連続する2つのブロックとして切り出すとともに1文ずつずらしながら順次ブロックを切り出すことと、これら文章の文字表現をベクトル表現により分散表現することと、この分散表現に対し類似度の高低を判別することと、文章同士の類似度が高いと判別された文章同士を同一のトピックとみなし、低いと判別された文章同士を異なるトピックとみなしてトピックの切り替わる位置を推定してトピック毎に分割することと、本文の文章全体をトピック毎に分割し、トピック毎に文章を要約化することとを実行させることにより、トピックの切り替わる位置を確実に推定してトピック毎に分割することができる。このため、トピック毎の要約は的確で明瞭なものとなる。
【0025】
本発明のプログラムは、トピック分割された文章を順に、事前学習済みモデルをファインチューニングした抽出型要約モデルに入力し、出力され要約された文章を結合し、本文の要約済み文章を作成することを実行させることが好ましい。係る構成とすることにより、本文全体の要約も、自動化され、迅速に要約化することができる。
【発明の効果】
【0026】
本発明の請求項1に係る文章の要約化システムでは、複数の文章を含む本文を、先頭の文章から所定の数毎に連続する2つのブロックとして切り出し、このブロックを1文ずつずらせては順次切り出しを行うとともに、順次切り出されたブロック毎にブロック内の文章をベクトル化して類似度を判別し、判別された類似度に応じてトピックの切り替わりを推定してトピックを分割し、分割されたトピック毎に文章を要約化するようにしたので、トピック毎の要約は的確で明瞭なものとなり、本文全体の要約も、的確かつ明確化される。
【0027】
また、本発明の請求項2に係る文章の要約化システムでは、複数の文章を含む本文を、先頭の文章から所定の数の文章毎に連続する2つのブロックとして切り出すとともに1文ずつずらしながら順次ブロックを切り出す切り出し部と、これら文章を数値化してベクトル空間に埋め込む分散表現部と、この分散表現に対しコサイン類似度の高低を判別する類似度判別部と、文章同士の類似度が高いと判別された文章同士を同一のトピックとみなし、低いと判別された文章同士を異なるトピックとみなしてトピックの切り替わる位置を推定してトピック毎に分割するトピック分割部とを備えて構成され、本文の文章全体をトピック毎に分割し、トピック毎に文章を要約化するようにしたので、トピックの切り替わる位置を確実に推定してトピック毎に分割することができる。このため、トピック毎の要約は的確で明瞭なものとなる。
【0028】
さらに、本発明の請求項4に係る文章の要約化方法では、複数の文章を含む本文を、先頭の文章から所定の数毎に連続する2つのブロックとして切り出し、このブロックを1文ずつずらせては順次切り出しを行うステップと、切り出される度に切り出されたブロック内の文章をベクトル化して類似度を判別するステップと、判別された類似度に応じてトピックの切り替わりを推定してトピックを分割するステップとを有し、分割されたトピック毎に文章を要約化するようにしたので、トピック毎の要約は的確で明瞭なものとなり、本文全体の要約も、的確かつ明確化される。
【0029】
また、本発明の請求項5に係る文章の要約化方法では、複数の文章を含む本文を、先頭の文章から所定の数の文章毎に連続する2つのブロックとして切り出すとともに1文ずつずらしながら順次ブロックを切り出す切り出し部と、これら文章を数値化してベクトル空間に埋め込む分散表現部と、この分散表現に対し類似度の高低を判別する類似度判別部と、文章同士の類似度が高いと判別された文章同士を同一のトピックとみなし、低いと判別された文章同士を異なるトピックとみなしてトピックの切り替わる位置を推定してトピック毎に分割するトピック分割部とを備え、切り出し部により本文の先頭文の文章から所定の数毎に所定数の連続するブロックとして切り出す第1のステップと、分散表現部により連続する2つのブロックのそれぞれの文章に対して文字表現をベクトル表現により分散表現する第2のステップと、類似度判別部により分散表現の類似度の高低を判別して判別結果を出力する第3のステップと、第3のステップ後、切り出し部により前記ブロックから1文をずらせて新たな連続する2つのブロックに切り分け、ブロックに切り分ける度に第2第3のステップを繰り返し、最後の文章に達すると、トピック分割部により文章同士の類似度が高いと判別された文章同士を同一のトピックとみなし、低いと判別された文章同士を異なるトピックとみなしてトピックの切り替わる位置を推定してトピック毎に分割する第4のステップとを有し、本文の文章全体をトピック毎に分割し、トピック毎に文章を要約化するようにしたので、トピックの切り替わる位置を確実に推定してトピック毎に分割することができる。このため、トピック毎の要約は的確で明瞭なものとなる。
【0030】
さらに、本発明の請求項7に係る文章の要約化装置では、複数の文章を含む本文を、先頭の文章から所定の数毎に連続する2つのブロックとして切り出し、このブロックを1文ずつずらせては順次切り出しを行うとともに、順次切り出されたブロック毎にブロック内の文章をベクトル化して類似度を判別し、判別された類似度に応じてトピックの切り替わりを推定してトピックを分割し、分割されたトピック毎に文章を要約化するようにしたので、トピック毎の要約は的確で明瞭なものとなり、本文全体の要約も、的確かつ明確化される。
【0031】
また、本発明の請求項8に係る文章の要約化装置では、複数の文章を含む本文を、先頭の文章から所定の数の文章毎に連続する2つのブロックとして切り出すとともに1文ずつずらしながら順次ブロックを切り出す切り出し部と、これら文章を数値化してベクトル空間に埋め込む分散表現部と、この分散表現に対し類似度の高低を判別する類似度判別部と、文章同士の類似度が高いと判別された文章同士を同一のトピックとみなし、低いと判別された文章同士を異なるトピックとみなしてトピックの切り替わる位置を推定してトピック毎に分割するトピック分割部とを備えて構成され、本文の文章全体をトピック毎に分割し、トピック毎に文章を要約化するようにしたので、トピックの切り替わる位置を確実に推定してトピック毎に分割することができる。このため、トピック毎の要約は的確で明瞭なものとなる。
【0032】
さらに、本発明の請求項10に係るプログラムでは、コンピュータに、複数の文章を含む本文を、先頭の文章から所定の数毎に連続する2つのブロックとして切り出し、このブロックを1文ずつずらせては順次切り出しを行うことと、順次切り出されたブロック毎にブロック内の文章をベクトル化して類似度を判別することと、判別された類似度に応じてトピックの切り替わりを推定してトピックを分割することと、分割されたトピック毎に文章を要約化することとを実行させるようにしたので、トピック毎の要約は的確で明瞭なものとなり、本文全体の要約も、的確かつ明確化される。
【0033】
また、本発明の請求項11に係るプログラムでは、コンピュータに、複数の文章を含む本文を、先頭の文章から所定の数の文章毎に連続する2つのブロックとして切り出すとともに1文ずつずらしながら順次ブロックを切り出すことと、これら文章の文字表現をベクトル表現により分散表現することと、この分散表現に対し類似度の高低を判別することと、文章同士の類似度が高いと判別された文章同士を同一のトピックとみなし、低いと判別された文章同士を異なるトピックとみなしてトピックの切り替わる位置を推定してトピック毎に分割することと、本文の文章全体をトピック毎に分割し、トピック毎に文章を要約化することとを実行させるようにしたので、トピックの切り替わる位置を確実に推定してトピック毎に分割することができる。このため、トピック毎の要約は的確で明瞭なものとなる。
【図面の簡単な説明】
【0034】
【
図1】
図1は、本発明の一実施形態に係る文章の要約化システムの全体構成を示すシステム構成図である。
【
図2】
図2は、
図1の文章の要約化システムの概念を模式的に示す説明図である。
【
図3】
図3は、
図1の文章の要約化システムにおいて文章をブロックとして切り出す例を示す説明図である。
【
図4】
図4は、切り出し部により所定数の文章毎にブロックを設定する一例を示す説明図である。
【
図5】
図5は、
図1の文章の要約化システムにおいて文章のブロック化から類似度を判別するグラフを導くまでのステップを概念として示す説明図である。
【
図6】
図6の(A)、(B)はそれぞれ、先頭の文章から最後の文章に達するまでのブロックの切り出しと類似度の判別を繰り返し行うステップを示すフローチャートおよび類似度のグラフからトピックに切り分けるステップを示すフローチャートである。
【
図7】
図7は、
図1の文章の要約化システムにおいてコサイン類似度によるトピックの切れ目を示すグラフである。
【
図8】
図8は、本文の文章類似度曲線が導かれたグラフである。
【
図9】
図9は、トピック分割された本文の例を示す説明図である。
【
図10】
図10は、抽出型要約部により分割された文章を順に抽出型要約モデルに入力して出力された要約文章を結合するステップを模式的に示す説明図である。
【
図11】
図11は、
図10の抽出型要約部でモデルから出力された数値の例を示す説明図である。
【発明を実施するための形態】
【0035】
以下、図面に示す一実施形態により本発明を説明する。本発明の一実施形態に係る文章の要約化システム2は、
図1および
図2に示すように、複数の文章を含む本文の文章を、先頭から所定の数毎に連続する2つのブロックとして切り出し、このブロックを1文ずつずらせては順次切り出しを行うとともに、順次切り出されたブロック毎にブロック内の文章をベクトル化して類似度を判別し、判別された類似度に応じてトピックの切り替わりを推定してトピックを分割し、分割されたトピック毎に文章を要約化するようにしたものである。つまり、長文入力による要約の冗長性や不明瞭性を排するため、本文をトピック毎に分割して要約化を図るようにしたものである。
【0036】
本実施形態に係る文章の要約化システム2は、
図1に示すように、会議の議事録のような本文Tを要約化するシステムである。本文Tは、予めハードウェア(ハードディスク、情報処理部、記憶部)、コンピュータあるいはクラウドコンピュータに文字データとして入力される。本実施例では、中央演算処理部(CPU)4と入力部5と出力部6と表示部7と送受信部8と記憶部9とを有するコンピュータ(PC)3を例に説明する。PC3には、後述する動作を行うソフトウェア(プログラム)が収納される。
【0037】
本実施形態に係る文章の要約化システム2は、切り出し部10と、分散表現部11と、類似度判別部12と、トピック分割部13と、抽出型要約部14とを備えて構成される。切り出し部10は、
図3および
図4に示すように、複数の文章(文
1,文
2,文
3,・・・文
N(
Nは1以上の任意の整数))を含む本文Tの文章全体の先頭文(文
1)から所定の数(本実施例では5)の文章を順にずらせながらブロックとして順次切り出すようになっている。分散表現部11は、
図5に示すように、これら文章の文字表現をベクトル表現により分散表現するようになっている。類似度判別部12は、この分散表現に対しコサイン類似度の高低(類似度0.0~1.0)を判別するようになっている。そして、トピック分割部13は、文章同士の類似度が高いと判別された文章同士を同一のトピックとみなし、低いと判別された文章同士を異なるトピックとみなしてトピックの切り替わる位置を推定してトピック毎に分割するようになっている。さらに、抽出型要約部14は、トピック分割された文章を順に、事前学習済みモデルをファインチューニングした抽出型要約モデルに入力し、出力され要約された文章を結合し、本文の要約済み文章を作成するようになっている。
【0038】
切り出し部10は、本文T(Tは、例えば、
図4に示す「桃太郎」の物語)に対し、
図3および
図4に示すように、先頭の文章(文
1)から一定の数(本実施例では、5つの文章)ごとに切り出して、これを1ブロックとする。このブロックを先頭から続けて2ブロック取り出す(
図3および
図4のB1-1、B2-1参照)(第1のステップS1)。つまり、1ブロックの文章を5つの文章とした場合(文
1~文
5)、先頭から10の文章(文
1~文
10)を2つに分けて取り出す(B1-1:(文
1~文
5)、B2-1:(文
6~文
10))。そして、これら取り出された2つのブロックB1-1、B2-1同士が類似しているか否かを、
図5に示すように、分散表現部11によりベクトル表現で分散表現し(第2のステップS2)、類似度判別部12によりこの分散表現をコサイン類似度から判定し、0から1の数値で出力する(第3のステップS3)。この類似度のデータは記憶部に9に記録される。次に、切り出し部10によりブロック切り出しの対象となった文章の先頭の文章(文
1)を削除し、2番目の文章(文
2)から5つの文章ごとに2ブロック取り出す(
図3のB1-2:(文
2~文
6)、B2-2:(文
7~文
11)参照)。そして、これら1つ文章がずれた2つのブロックB1-2:(文
2~文
6)、B2-2:(文
7~文
11)についてこれら2つのブロックB1-2、B2-2同士が類似しているか否かを、分散表現部11と類似度判別部12とにより分散表現をコサイン類似度から判定し、0から1の数値で出力する。つまり、2番目の文章(文
2)から新たに切り出されたブロックB1-2、B2-2について、第2のステップS2と第3のステップS3とを繰り返してデータ処理し、記憶部9に記録する。ブロック(B1-1:B2-1)・・・(B1-n:B2-n(nは任意の整数))の切り出しは、最後の文章(文
N)に到達するまで続けられる。
【0039】
このようにして、対象となる文章(文
1~文
N)の最後の文章(文
N)に到達すると、
トピック分割部13は、
図5に示すように、出力された類似度の数値を縦軸に、ブロック間の位置を横軸にグラフ化する。コサイン類似度は0に近づけば近づくほど類似せず、1に近づけば近づくほど類似している。このため、グラフの谷が、トピックが切り替わる位置と推定できる。従って、
図7に示すように、本文T全体の文章をグラフの谷の位置に従って切り分けると、切り分けた文章内のトピックは1つになる。すなわち、同一のトピックで括られた文章となる。こうして、トピック分割部13は、文章同士の類似度が高いと判別された文章同士を同一のトピックとみなし、低いと判別された文章同士を異なるトピックとみなしてトピックの切り替わる位置を推定してトピック毎に分割するようになっている(第4のステップS4)。
図8は、本文T(桃太郎の物語)について、文章類似度曲線を示すもので、図中縦線はトピックの区切れ位置を示し、左の軸は類似度を、右の軸は、depth-scoresで谷の深さを定義している。つまり、左右のピークからみてどれだけ深いか「深さを定義」し、深ければ深いほどトピックが切り替わる山(左右の数値が低ければそれが山)を、すなわち、トピックの切り替わりを示している。閾値αは本文T(桃太郎の物語)の文章がグラフ化された後で設定され、この閾値αを超えていてかつdepth-scores(右の軸)がピークとなる位置が切り替わり位置である。ただし、近くに区切れ位置がないことが条件である。
図9は、こうして本文T(桃太郎の物語)についてトピック毎に区切られた文章の例を示している。
【0040】
次に、トピック毎に切り分けられた文章について、抽出型要約部14は、
図2および
図10に示すように、トピック分割された文章を順に、事前学習済みモデルをファインチューニングした抽出型要約モデルに入力し、出力され要約された文章を結合し、最後に本文の要約済み文章を作成する(第5のステップS5)。
図11は、トピック分割された文章についてモデルから出力された数値の例を示す説明図である。なお、この数値(
図11の右側参照)は高いほど、要約となる文章の候補になる確率が高い。
【0041】
次に、本発明に係る文章の要約化方法について、上記実施形態に係る文章の要約化システム2の作用に基づいて説明する。上記実施形態に係る文章の要約化システム2では、
図1および
図2に示すように、ソフトウェア(プログラム)として切り出し部10と、分散表現部11と、類似度判別部12と、トピック分割部13と、抽出型要約部14とを備えて構成されるので、まず、第1のステップS1で、切り出し部10により、本文Tに対し、先頭の文章(文
1)から5つの文章毎に切り出して、これを1ブロックとし、このブロックを先頭から続けて2ブロックB1-1、B2-1を取り出す。次に、第2のステップS2で、これら取り出された2つのブロックB1-1、B2-1同士が類似しているか否かを、分散表現部11によりベクトル表現で分散表現し、第3のステップS3で、類似度判別部12によりこの分散表現をコサイン類似度から判定し、0から1の数値で出力する。このとき、
図5に示すように、0に近いほど類似度が低く、1に近いほど類似度が高いと判別され、グラフ化された後、類似度の閾値αが設定される。2つのブロックB1-1、B2-1の文章(文
1~文
5)、(文
6~文
10)の類似度が算出され記録されると、次に、切り出し部10により先頭の文章(文
1)を削除し、2番目の文章(文
2)から5つの文章ごとに2ブロック取り出し(
図3のB1-2:(文
2~文
6)、B2-2:(文
7~文
11)参照)、これら1つ文章がずれた2つのブロックB1-2:(文
2~文
6)、B2-2:(文
7~文
11)についてこれら2つのブロックB1-2、B2-2同士が類似しているか否かを、第2、第3のステップS2、S3を繰り返して類似度を算出し記録する。こうして、文章を一つずつずらしながら2ブロックB1、B2の切り出しを順次行っては類似度を算出し、2ブロックの切り出しは最後の文章(文
N)に到達するまで続けられる。
【0042】
対象となる文章(文
1~文
N)の最後の文章(文
N)に到達すると、第4のステップS4で、トピック分割部13は、出力された類似度の数値を縦軸に、ブロック間の位置を横軸にグラフ化し(
図5参照)、グラフの谷が、トピックが切り替わる位置と推定して、本文T全体の文章をグラフの谷の位置に従って切り分ける(
図7参照)。こうして、本文Tはトピック毎に切り分けられる(
図9参照)。
【0043】
本文Tの文章が、トピック毎に切り分けられると、第5のステップで、抽出型要約部14は、トピック分割された文章を順に、事前学習済みモデルをファインチューニングした抽出型要約モデルに入力し、出力され要約された文章を結合し、最後に本文の要約済み文章を作成するようになっている(
図2、
図10参照)。
【0044】
このように、上記実施形態に係る文章の要約化システムとその方法では、本文Tをトピックに切り分けてトピック毎に要約化を図ることにより、本文全体の要約を、的確かつ明瞭にしかも簡素化することができる
【0045】
なお、上述の文章の要約化システムおよびその方法では、システムと述べているがこれに限られるものではなく、PC3や端末、ハードウェア(CPU、入出力部、表示部、記憶部を備えた装置)に上記ソフトウェア(プログラム)(切り出し部10と分散表現部11と類似度判別部12とトピック分割部13と抽出型要約部14)をインストールした文章の要約化装置としても適用可能であることはいうまでもない。さらに、コンピュータに、複数の文章を含む本文の文章を先頭から所定の数毎に連続する2つのブロックとして切り出し、このブロックを1文ずつずらせては順次切り出しを行うことと、順次切り出されたブロック毎にブロック内の文章をベクトル化して類似度を判別することと、判別された類似度に応じてトピックの切り替わりを推定してトピックを分割することと、分割されたトピック毎に文章を要約化することとを実行させるプログラムとしてもよいことはいうまでもない。また、上記実施形態では、先頭の文章(文1)から5つの文章ごとにブロックを切り出しているがこれに限られるもではなく、本文Tの内容や種類に応じて、ブロック化する文章の数を適宜設定してもよい。さらに、上記実施形態に係る文章の要約化システムおよびその方法では、最終的に本文Tの要約化を図るようにしているが、それに限られるもではなく、本文をトピック分割することのみを目的とした言語処理プログラムとして供することもできる。つまり、議事録などの本文をトピック毎に切り分けることができるので、利用者が本文から必要なトピックだけ要約化せずに取り出して利用することもできれば、そのトピック部分のみを要約化して利用することもできるようになっている。
【符号の説明】
【0046】
2 文章の要約化システム
10 切り出し部
11 類似度判別部
13 トピック分割部
14 抽出型要約部
B1、B2、B1-1、B2-1、B1-2、B2-2 ブロック
T 本文
文1~文N 文章